文書AIのMistral AI、構造化抽出に対応した「OCR 4」を発表

Mistral AIが、企業の文書理解に向けた新しい光学文字認識（OCR）モデル「OCR 4」を発表しました。従来版が主に文書をテキストや表に変換していたのに対し、OCR 4はページや単語ごとにバウンディングボックス、ブロック分類、信頼度スコアを付与した構造化された出力を生成します。

このモデルは10の言語グループにまたがる170言語に対応し、特に希少言語や低リソース言語で高い精度を示します。タイトル、表、数式、署名といった要素を種類別に分類し、各要素の位置や役割、モデルの確信度まで把握できるため、検索拡張生成（RAG）向けのセマンティックチャンキングや、フォーム入力・請求書処理・コンプライアンスチェックを担うAIエージェントの基盤として活用できます。独立した評価者による比較では平均72%の勝率を記録したとしています。

OCR 4はPDFやDOC、PPT、OpenDocumentなど一般的な企業向け形式に対応し、単一コンテナで動作するため完全な自社運用（セルフホスティング）が可能です。これにより、データ主権やプライバシー、コンプライアンス要件が厳しい組織でも、文書データを自社インフラ内に留めたまま処理できます。料金は1,000ページあたり4ドル（バッチ処理は2ドル）で、APIのほかAmazon SageMakerやMicrosoft Foundry経由でも利用できます。

Mistral AIについて
Mistral AIはフランスのパリに拠点を置くAI企業で、大規模言語モデルや文書理解モデルを開発しています。オープンな姿勢と効率的なモデル設計で知られ、欧州を代表するAIラボの一つに数えられています。

TagsAI