「ディープ・リーズニング (Deep Reasoning)」は2026年5月11日(現地時間)、arxiv.orgを通じて発表された。これは汎用エージェント向けの新たな深層推論アプローチであり、タスク固有の推論の枠組み(スキャフォールド)を推論時に動的に構築する。構造化されたメタ推論によって、エージェントは柔軟な問題解決能力を獲得。評価では、既存の最先端スキャフォールドベースラインに対し、平均24.8%の性能向上を示した。
人間の複雑な問題解決能力は、計画、実行、中間目標の修正、連想判断による曖昧さの解消、形式的手順の適用といった多様な推論モードを柔軟に切り替えることに特徴がある。しかし、従来のLLMエージェントは、これらの推論決定を事前にハードコードされたスキャフォールドに依存しており、構造の適応が必要なタスクでは脆さが課題となっていた。
今回提案されたディープ・リーズニング (Deep Reasoning) は、推論時にタスク固有のスキャフォールドを構造化されたメタ推論によって構築する手法である。このアプローチは、メタ推論を、連想推論、形式計算、再帰的なサブ問題解決にわたる実行可能な分解として表現する形式言語を用いる。これにより、分解原理をインコンテキスト例として符号化し、テスト時のスキャフォールド構築をガイドすることが可能になる。
このアプローチは、汎用エージェント「ドロレス (DOLORES)」に実装された。ドロレス (DOLORES) は複雑なタスクを、より制御された推論スレッドに分散する。評価は、マルチホップ推論、長連鎖質問応答、長文コンテキスト集約、深層研究スタイルの情報探索という4つの困難なベンチマークで実施された。その結果、ドロレス (DOLORES) は3つのモデルサイズと2つのモデルファミリーにわたって、評価された全てのスキャフォールドを上回る性能を示した。
特に、最も強力な既存のスキャフォールドベースラインと比較して平均24.8%の改善を記録した。ドロレス (DOLORES) は認知を構造化された低負荷の推論スレッドに分散することで、早期終了やハルシネーション(誤情報の生成)を削減できるという。さらに、8Bバージョンが同じファミリーの全ての評価済み32Bベースラインの半数以上の設定で性能を上回り、スケーリングのギャップを埋める可能性も示された。これらの結果は、スキャフォールドを適応的推論として扱い、各タスクに必要な構造をジャストインタイムで構築する将来のエージェントシステムへの方向性を示している。
参考: arxiv.org — 2026年5月14日 09:00 (JST)