Mistral AI představuje model OCR 4 pro strukturovanou analýzu dokumentů

Společnost Mistral AI uvolnila 23. června 2026 model OCR 4, který z dokumentů extrahuje strukturovaná data vhodná pro systémy RAG a agentní pracovní postupy.

Společnost Mistral AI uvolnila 23. června 2026 nový model OCR 4 určený pro pokročilé zpracování dokumentů. Podle Marktechpost přináší tato technologie strukturovaný výstup, který je přímo připraven pro citace v systémech RAG a agentních pracovních postupech. Model podporuje 170 jazyků napříč deseti jazykovými skupinami.

Zatímco předchozí generace se omezovaly na převod stránky do čistého textu a tabulek, OCR 4 vrací strukturovanou reprezentaci celého dokumentu. Podle Marktechpost je každý obsahový blok ohraničen rámečkem a klasifikován podle typu – například jako nadpis, tabulka, rovnice, podpis či jiný prvek. Model navíc generuje skóre spolehlivosti jak na úrovni stránek, tak jednotlivých slov.

Model přijímá běžné podnikové formáty, včetně PDF, DOC, PPT a OpenDocument. Podle Marktechpost je dostatečně kompaktní, aby se dal nasadit v jediném kontejneru, což umožňuje plně samostatné provozování s důrazem na rezidenci dat a soulad s požadavky. Tato vlastnost je zvláště důležitá pro organizace s přísnými pravidly ochrany dat.

V nezávislém hodnocení dosáhl model průměrné míry vítězství 72 % oproti konkurenčním systémům. Podle Marktechpost šlo o srovnání s modely založenými na umělé inteligenci, obecnými špičkovými modely, podnikovými dokumentovými službami a předchozí verzí OCR 3. Testování proběhlo na více než 600 dokumentech ve dvanácti a více jazycích získaných od třetích stran.

V automatizovaných benchmarkech model dosáhl 85,20 bodu na veřejném testu OlmOCRBench, 93,07 bodu na OmniDocBench a 0,98 na interním vícejazyčném hodnocení Crawl Multilingual. Podle Marktechpost zákazník Rogo hlásil srovnatelnou přesnost při přibližně osminásobně nižších nákladech a sedmnáctinásobně nižší latenci oproti vedoucím agentním parserům. Zákazník Anaqua naměřil přibližně čtyřnásobně rychlejší zpracování na stránku než dosavadní poskytovatel.

Ohraničující rámečky byly podle Marktechpost nejžádanější funkcí uživatelů. Umožňují přesnou lokalizaci textu pro zvýraznění v kontextu a spolehlivé datové pipeline. Klasifikace bloků a skóre spolehlivosti podporují citace založené na zdrojích, redakční úpravy a ověřování s lidskou účastí. Tato struktura slouží několika pracovním postupům: čisté klasifikované bloky tvoří lepší jednotky pro získávání v RAG, agenti získávají strukturální primitiva pro práci s dokumenty, konektory přijímají konzistentní typovaný výstup pro ingestování a indexování.

Model je rovněž součástí nástroje Mistral Search Toolkit, který je nyní ve veřejné preview verzi. Podle Marktechpost jde o otevřený kompozitní vyhledávací rámec, jehož strukturovaný výstup dodává vstupy připravené pro citace do pracovních postupů pro získávání a hodnocení.

Mistral AI explicitně vymezuje zamýšlené použití. Podle Marktechpost je OCR 4 modelem pro porozumění dokumentům, nikoliv rozhodovacím nástrojem. Není určen pro lékařskou diagnostiku, právní rozhodování ani finanční rozhodnutí s vysokými riziky. Nehodí se pro bezpečnostně kritické systémy ani pro procesy v reálném čase.

Co to znamená: Pro firmy zvažující audit a implementaci umělé inteligence představuje uvedení modelu Mistral OCR 4 rozšíření možností pro automatizaci zpracování dokumentů s důrazem na strukturovanost a ověřitelnost. Jednokontejnerové nasazení výrazně usnadňuje splnění požadavků na rezidenci dat a geografické uložení informací, což je klíčové pro soulad s regulacemi, jako je GDPR. Přesnost 72% míry vítězství a konkrétní zákaznické reference týkající se nákladů a latence poskytují reálné podklady pro hodnocení návratnosti investic. Při auditu je však nutné respektovat explicitní omezení výrobce – model není vhodný pro oblasti s vysokým dopadem na práva jednotlivců nebo kritickou infrastrukturu bez lidské kontroly. Organizace by měly ověřit, zda jejich případy použití spadají do zamýšleného rozsahu, a zdokumentovat tuto analýzu jako součást řízení rizik.

Zdroje:

Tento přehled sestavil automatizovaný redakční systém CIAD z veřejně dostupných zdrojů, ověřil fakta vůči více nezávislým zdrojům a uvedl je níže. Redakční odpovědnost nese CIAD. Nepřesnost nahlaste na office@ciad.cz.

← Zpět na blog