arXiv cs.CLは6月11日(現地時間)、大規模言語モデル (LLM) エージェントの動的環境下における性能評価を目的とした新たなベンチマークスイートであるエボアリーナ (EvoArena) を導入する論文を公開した。この研究では、エージェントが変化する環境に適応し、記憶の変化を通じて進化を推論できるよう設計された、パッチベースのメモリパラダイムであるエボエム (EvoMem) も提案されている。エボアリーナは、現実世界の多様な動的環境に対応する信頼性の高いエージェント開発を加速させることが期待される。

現在のLLMエージェントは、多岐にわたるベンチマークにおいて高い性能を発揮しているものの、その大半の評価は静的な環境を前提として行われている。しかし、現実世界でのアプリケーション展開は本質的に動的であり、エージェントは予期せぬ変化や更新されるタスク条件に直面した場合、その知識、スキル、行動を継続的に調整していく必要がある。静的な環境でのみ評価されたエージェントは、実世界でのロバスト性に欠けるとの指摘がなされている。

こうした課題に対応するため開発されたエボアリーナ (EvoArena) は、ターミナル操作、ソフトウェア利用、ソーシャルインタラクションといった複数のドメインにわたる環境変化を、連続的な更新のシーケンスとしてモデル化する。このベンチマークは、エージェントが時間の経過とともに記憶をどのように進化させ、それによって推論能力を向上させるかを追跡できるよう設計されているのが特徴だ。公開された論文によると、既存のエージェントをエボアリーナで評価した結果、平均精度はわずか39.6%と、動的な環境への適応に苦戦している実態が明らかになった。

一方、この研究で提案されたエボエム (EvoMem) は、エージェントが自身の記憶を「パッチ」のように段階的に更新していくパラダイムだ。エージェントは、新たな情報や環境の変化に応じて記憶の関連部分を修正・追加することで、変化する状況に柔軟に対応できる。エボエムを適用したエージェントは、エボアリーナにおいて平均1.5%の性能向上を達成したほか、汎用AIアシスタントの評価ベンチマークであるガイア (GAIA) および複雑なタスク推論ベンチマークのロコモ (LoCoMo) といった既存の標準ベンチマークでも、それぞれ6.1%と4.8%の改善を示し、その有効性が確認された。

エボエムは個別のタスク性能向上に留まらず、エボアリーナのチェーンレベル精度も3.7%向上させた。チェーンレベル精度とは、関連する複数の進化的なサブタスクからなる連続したシーケンス全体を完了する能力を指す。この改善は、エボエムが単一のタスクだけでなく、より複雑な一連の行動においてもエージェントの適応能力を高めることを意味する。メカニズム分析により、エボエムが記憶におけるエビデンス捕捉を改善し、完全な進化する環境状態をより良く保存していることが示唆されている。これらの結果は、現実世界に展開可能な信頼性の高いエージェントを構築するには、評価と記憶の両面において「進化」の概念をモデル化することの重要性を強調するものと指摘されている。


参考: arXiv cs.CL (アーカイブ) — 2026年6月12日 02:59 (JST)

この記事をシェア
X はてブ LinkedIn