マルチエージェント推論新通信方式「StreamMA」発表、レイテンシ削減と有効性向上へ

Zhen Yang（ジェン・ヤン）氏らは2026年6月3日(現地時間)、マルチエージェント推論システムにおける新しいストリーミング通信方式「StreamMA」を導入したと発表した。これは、従来の「generate-then-transfer」パラダイムがパイプライン深度に比例してエンドツーエンドのレイテンシを増大させる問題を解消するもの。StreamMAは、各推論ステップを生成と同時にダウンストリームエージェントにストリーミングすることで、処理の遅延を大幅に削減し、効率的な推論を実現する。

このパイプライン化された通信方式は、推論の有効性向上にも寄与する。マルチステップ推論の品質は均一ではなく、初期のステップは後続のステップよりも信頼性が高いという特性があるため、StreamMAは信頼性の高い初期ステップを基にすることで、エラーを起こしやすい後続ステップがダウンストリームエージェントを誤導するリスクを効果的に防ぐ。研究チームは、ストリーム、シリアル、シングルプロトコルの閉形式結合分析を通じてこれらの利点を形式化し、有効性の順序、スピードアップの上限、コスト比に関する理論的な導出を行った。

StreamMAは、広範な評価において従来のベースライン手法を上回る性能を示した。評価対象は、数学、科学、コード分野にわたる8つの推論ベンチマーク、Claude Opus 4.6とGPT-5.4という2種類のLLM（大規模言語モデル）、そしてChain、Tree、Graphの3つのトポロジーであった。特に、HMMT 2026ベンチマークでは、StreamMAが平均で7.3パーセンテージポイント、最大で22.4パーセンテージポイントの改善を達成し、その優位性を明確に示した。

さらに本研究では、「ステップレベルスケーリング法則」という新たな発見も報告された。これは、エージェントあたりの推論ステップ数を増やすことで、推論の有効性と効率の両方が一貫して向上するという法則である。この法則は、エージェント数のスケーリングとは直交し、組み合わせ可能な新しいスケーリング次元として位置づけられている。論文の共著者には、Yang氏のほか、Xiaogang Xu（シャオガン・シュー）氏、Wen Wang（ウェン・ワン）氏、Cong Chen（コン・チェン）氏、Xander Xu（ザンダー・シュー）氏、Ying-Cong Chen（インコン・チェン）氏が名を連ねる。

参考: arXiv cs.CL — 2026年6月4日 02:57 (JST)