リサーチ・論文

文書AI運用化へマイクロサービス提案 OCRとLLM連携パイプライン最適化

arXiv cs.AIは2026年5月12日(UTC)付けで、文書AI(Document AI)システムを本番環境で運用化するためのマイクロサービスアーキテクチャに関する研究論文を発表した。同論文は、文書の分類、光学文字認識(OCR)、大規模言語モデル(LLM)を用いた構造化フィールド抽出など、複数のモデルパイプラインをカプセル化する設計を詳述している。これは、学術研究で生まれた先進技術と、実稼働環境での効率的かつ堅牢な実装との間のギャップを埋めることを主目的としている。

リサーチ・論文

arXiv、検証可能なソフトウェア世界「OpenComputer」発表

科学論文プレプリント公開サイトarXivは2026年5月19日(現地時間)付けで、コンピュータ利用エージェント向けに検証可能なソフトウェア世界を構築するためのフレームワーク「OpenComputer」を発表した。このフレームワークは、実アプリケーションに対する構造化された検査、自己進化型検証、デスクトップタスク生成、評価ハーネスの四つの主要コンポーネントを統合する。

リサーチ・論文

VegAS、検証器活用でエンボディドAIのロバスト性向上

VegASは2026年5月12日(現地時間)、arXiv cs.AIにて論文として公開された。汎用エンボディドエージェントのロバスト性向上を目的としたフレームワークで、MLLMベースエージェントが困難なシナリオで示す脆弱性を克服するため、明示的な検証ステップを導入する。推論時に複数の候補行動を評価し、最も信頼性の高い選択肢を選び出すことで、既存の強力な連鎖思考(CoT)ベースラインに対し最大36%の性能向上を達成。LLM駆動のデータ合成戦略で検証器を訓練する点が、従来の推論時計算手法との差別化となる。

リサーチ・論文

拡散型言語モデル向け制御生成、適応型スケジューラーで改善

arXiv cs.LGは2026年5月8日(現地時間)、Hanhan Zhou、Shamik Roy、Rashmi Gangadharaiahの3氏による論文を発表した。同論文は、離散拡散型言語モデル(DLMs)における制御生成手法の改善を提案。既存手法が抱える生成品質の低下という課題に対し、属性のコミットタイミングに応じた適応型スケジューラーの有効性を示した。