米Appleは2026年5月(現地時間)、機械学習研究部門のウェブサイトで、ツール呼び出しエージェントの性能向上に関する研究論文「Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents」を発表した。この研究は、大規模言語モデル (LLM) を利用するエージェントにおける従来の事後評価の限界を克服するため、推論時の実行ループ内で評価を行う専門のレビュアーエージェントを導入する手法を提案している。
この研究では、従来のツール呼び出しエージェントの評価がツール選択、パラメーターの正確性、スコープ認識に基づいていたものの、LLMの軌跡評価が本質的に事後的であり、リアルタイムでのエージェント修正が不可能であった課題を指摘している。
提案された新しいアーキテクチャでは、評価プロセスを推論時の実行ループに組み込み、専門のレビュアーエージェントがツール呼び出しの実行前にその内容を評価する。これにより、事後的な修正から事前評価とエラー軽減へのパラダイムシフトを図る。このシステムは、主要な実行エージェントと二次的なレビューエージェントの役割を明確に分離する。
研究では、レビュアーエージェントが新たなエラーを導入する可能性を考慮し、Helpfulness-Harmfulness (有用性-有害性)という評価指標を導入した。有用性はフィードバックが基本エージェントのエラーを修正する割合を、有害性はフィードバックが正しい応答を劣化させる割合を測定する。これらの指標は、モデルやプロンプトが正味の正の価値を提供するかどうかを明らかにし、レビュアー設計に直接役立つ。
本アプローチはBFCL (シングルターン) と τ2-Bench (マルチターン、ステートフルシナリオ) で評価され、それぞれ無関係な検出で+5.5%、マルチターンタスクで+7.1%の向上が確認された。レビュアーモデルの選択が重要であることが示され、reasoning model o3-miniはGPT-4oの2.1:1に対し、3:1の費用対効果比を達成した。GEPAを介した自動プロンプト最適化により、さらに+1.5~2.8%の追加的な改善が見られた。これらの結果は、実行とレビューの分離が、基本エージェントを再訓練することなくレビュアーを系統的に改善できるという利点を示すものとされている。
参考: Apple ML Research — 2026年5月1日 09:00 (JST)
原文ハイライト"Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents"