Mistral AIが「Mistral OCR 4」発表、文書インテリジェンス強化へ
Mistral AIは2026年6月23日(現地時間)、バウンディングボックス、ブロック分類、インライン信頼度スコアを抽出テキストと共に出力する新OCRモデル「Mistral OCR 4」をリリースした。同モデルは170言語と10の言語グループに対応し、単一コンテナで自己ホスト型デプロイが可能。企業検索、RAG、ドメイン特化型検索パイプラインの取り込みコンポーネントとして利用できる。
Tag
8 件の関連記事
Mistral AIは2026年6月23日(現地時間)、バウンディングボックス、ブロック分類、インライン信頼度スコアを抽出テキストと共に出力する新OCRモデル「Mistral OCR 4」をリリースした。同モデルは170言語と10の言語グループに対応し、単一コンテナで自己ホスト型デプロイが可能。企業検索、RAG、ドメイン特化型検索パイプラインの取り込みコンポーネントとして利用できる。
科学論文リポジトリのarXivは6月11日(現地時間)、Zilin Xiao氏らの研究チームが、言語モデルに類推による推論能力を付与する新しい学習フレームワーク「Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT)」を提案したと発表した。この手法は、従来のRetrieval-augmented generation (RAG) が持つ課題を克服し、文脈の類似性ではなく推論への寄与度に基づいて情報を選択することで、複雑な推論タスクにおける言語モデルの性能向上を目指す。
arXiv cs.CLは2026年6月11日(現地時間)、Marek Šuppa氏らが執筆した論文を公開し、その中で低リソース言語であるスロバキア語を対象とした初の包括的なテキスト埋め込みベンチマーク「SkMTEB」を発表した。このベンチマークは、31のデータセットと7種類のタスクタイプで構成されており、既存の多言語ベンチマークに比べスロバキア語の網羅範囲が約4倍深く、精緻な評価を可能にする。論文では、31の埋め込みモデルを評価した結果、大規模な命令チューニング済み多言語モデルが最も高い性能を示し、既存のスロバキア語特化NLUモデルは埋め込みタスクへの転移性能が低いことが判明したと報告している。
Google ResearchとGoogle Cloudは2026年6月5日(現地時間)、複雑なエンタープライズクエリに対し、信頼性の高い応答を生成するAgentic RAG(Retrieval-Augmented Generation)フレームワークを「Gemini Enterprise Agent Platform」に導入したと発表した。この新システムは、従来のRAGの課題を克服し、複数ソースからの情報検索と反復的なコンテキスト収集を通じて、事実性データセットにおける精度を最大34%向上させたと報告されている。
arXiv cs.CL (Computer Science - Computation and Language)は6月3日(現地時間)、「When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG」と題する論文を公開した。この研究は、医療分野の質問応答システムにおける検索拡張生成(RAG)の有効性を再検証するもので、これまで有望視されてきたRAGが、大規模な医療QAモデルにおいて限定的かつ一貫性のない改善しか提供しない可能性を指摘している。基盤モデル自体の選択が、検索器や検索コーパスよりもRAGの性能に大きな影響を与えることも明らかになった。
Roman Prosvirnin氏、Sergei Kuznetsov氏、Seungmin Jin氏らは2026年5月19日(現地時間)、学術論文リポジトリarXivに掲載された論文で、Retrieval-Augmented Generation(RAG)システム「ContextRAG」を発表した。このシステムは、大規模言語モデル(LLM)を用いてエンティティや関係を抽出するプロセスを不要とし、グラフ構造を直接構築することで、インデックス作成時に発生するトークンコストおよび実時間コストの大幅な削減を実現する。
Hugging Face Blogが2026年5月18日(現地時間)付けで報じたところによると、PaddleOCR 3.5がリリースされ、Hugging Face Transformersを推論バックエンドとして利用可能になった。これにより、サポートされるPaddleOCRモデルは`engine="transformers"`を設定することでTransformersと連携して動作する。この変更は、OCRおよび文書解析タスクをHugging Faceエコシステムに統合する。
OncoAgent Research Groupは2026年5月9日(現地時間)、オープンソースのプライバシー保護型腫瘍学臨床意思決定支援システム「OncoAgent」を発表しました。このシステムは、デュアルティアのLLMアーキテクチャと、マルチエージェントのLangGraphトポロジー、4段階のCorrective RAGパイプラインを組み合わせています。70以上の医師向けNCCNおよびESMOガイドラインに基づき、3層のリフレクション安全バリデーターが厳格なZero-PHIポリシーを適用します。