#BrowseComp 関連記事

IBM Researchが汎用AIエージェント評価の新リーダーボードとフレームワーク発表

IBM Researchは2026年5月17日(現地時間)、汎用人工知能（AI）エージェントシステムの性能と運用コストを比較するためのオープンベンチマーク「The Open Agent Leaderboard」を発表した。このリーダーボードは、単一のモデルではなく、エージェントが利用するツール、処理手順の計画、アクション間の記憶機能、エラー回復能力といったシステム全体を評価対象とする。同時に、評価フレームワーク「Exgentic」と、その方法論および評価結果を詳述した論文も公開され、これらのリソースは直ちに利用可能となっている。

リサーチ・論文 5月8日 00:30

長期探索エージェント効率化へ、文脈管理「コンテキスト・リアクト」発表

Yijun Lu氏らの研究チームは2026年5月6日(現地時間)、長期にわたる探索エージェント向けに、新しい文脈オーケストレーション手法「コンテキスト・リアクト（Context-ReAct）」と、それに基づくエージェント「ロングシーカー（LongSeeker）」を発表した。この手法は、エージェントが推論、ツール使用、情報観察を行う際に、急速に増加する作業文脈を適応的に管理することを目的としている。計算コストの増加や誤情報生成のリスクを低減し、探索エージェントの効率と信頼性向上を目指す。