Agents-A1、35Bで1兆パラメータ級性能長ホライズン手法を提示

arXiv (アーカイブ) は6月29日(現地時間)、論文を公開し、研究者らが開発した35Bパラメータの「Agents-A1」について詳述した。本モデルは、従来のパラメータ数を増やす手法ではなく、エージェントの「ホライズン」をスケールさせる独自のアプローチにより、1兆パラメータ級の高性能を実現したと報告されている。長ホライズンの軌跡生成と多様なエージェント能力のスケーリングに着目したこの研究は、AIエージェントの性能向上における新たな道筋を示すものだ。

Agents-A1は、外部知識、アクション、観測、および検証結果を統合する長ホライズン知識-アクションインフラストラクチャを基盤としている。このインフラストラクチャにより、平均45,000トークンに及ぶ長大なエージェントトラジェクトリの生成が可能となる。

モデルの学習プロセスは、3段階のレシピに従って設計された。まず、ベースモデルは広範なエージェントの挙動に適合させるため、フルドメインの教師ありファインチューニングが実施された。次に、各ドメインに特化した専門知識を獲得させるため、ドメインレベルの教師モデルが学習された。最後に、異なるドメイン間での知識転送効率を高める目的で、顕著なボキャブラリのアライメントを伴うマルチティーチャードメインルーティングオンポリシー蒸留という手法が提案された。これにより、6つの異なるドメインの知識が単一の展開可能なスチューデントモデルへと統合された。

Agents-A1は、長ホライズンエージェントベンチマークにおいて、強力かつ広範な性能を示している。特に、Kimi-K2.6やDeepSeek-V4-proといった1兆パラメータモデルと比較しても、主要なベンチマークで優れた結果を達成した。具体的なスコアは、SEAL-0で56.4、IFBenchで80.6、HiPhOで46.4、FrontierScience-Olympiadで79.0、MolBench-Bindで56.8を記録している。さらに、SciCodeで44.3、HLEで47.6、BrowseCompで75.5と、他のベンチマークでも高い競争力を維持している。

本研究が示す、パラメータ数に依存せず「ホライズン」をスケーリングするアプローチは、AIモデルの開発戦略に構造的な転換をもたらす可能性があると指摘されている。限られた計算リソースでも高性能AIエージェントの実現が可能になることで、研究開発のアクセシビリティが向上し、多様なAIアプリケーションの創出を加速させるとの期待が示されている。これは、今後のAIインフラ設計やコスト戦略に影響を与え、より効率的で持続可能なAIエコシステムの構築に貢献しうると分析されている。

参考: arXiv cs.CL (アーカイブ) — 2026年6月30日 02:50 (JST)