Shangding Gu氏は5月25日(現地時間)、論文でエージェントAIにおける今後の主要な課題はモデルスケーリングだけでなくシステムスケーリングにあると指摘した。学術論文投稿サイトarXiv cs.AIが同日付で公開したこの研究は、ファウンデーションモデル(Foundation Model)を取り巻く監査可能で永続的、モジュール式かつ検証可能なアーキテクチャ設計の重要性を強調。この焦点の移行を「ハーネスのスケーリング」と称し、ファウンデーションモデルの周囲に構築される構造化された実行レイヤーを設計、評価、最適化における第一級オブジェクトとして扱うことを提案する。

この論文によると、近年の大規模言語モデルは、エージェントがツールを利用し、情報を取得し、メモリーを維持し、長期的なワークフローを実行することを可能にしている。しかし、評価は依然としてモデル中心であり、エージェントを最終的なタスクの成功に還元し、メモリー、情報取得、ツール利用、オーケストレーション、検証、ガバナンスといった要素を二次的な実装詳細として扱っている現状がある。

論文では、エージェントの性能はファウンデーションモデル、メモリー基盤、コンテキスト構築、スキルルーティング層、オーケストレーションループ、検証・ガバナンス層の相互作用から生まれると分析している。これらのコンポーネントが集合的に「エージェントハーネス」を形成し、モデルの能力を長期的なエージェントの振る舞いへと変換すると説明している。

ハーネスのスケーリングは、「コンテキストガバナンス」「信頼できるメモリー」「動的なスキルルーティング」の3つの主要なボトルネックを通じて研究されており、これらはオーケストレーションおよびガバナンスメカニズムによって調整・制約される。さらに、論文はワンショットのタスク成功にとどまらない、ハーネスレベルのベンチマークに関する研究課題も概説しており、軌道品質、メモリー衛生、コンテキスト効率、通信忠実度、検証コスト、および時間の経過に伴う安全な進化の測定を提唱している。

議論を具体化するため、Shangding Gu氏はPythonネイティブの参照ハーネス「CheetahClaws」を開発し、これを「Claude Code」や「OpenClaw」と比較している。論文の主要な主張は、エージェントAIの将来の進歩は、より強力なファウンデーションモデルと同程度にシステム設計に依存するというものである。


参考: arXiv cs.AI (アーカイブ) — 2026年5月26日 02:59 (JST)

原文ハイライト

"Scaling the Harness in Agentic AI"

この記事をシェア
X はてブ LinkedIn