arXiv(アーカイヴ)は2026年6月9日(現地時間)、テキスト、画像、音声、動画など多様なモダリティを統合的に扱うオムニモーダルエージェントオーケストレーションフレームワーク「Orchestra-o1(オーケストラ・オーワン)」に関する論文を発表した。このフレームワークは、大規模言語モデル (LLM) ベースのマルチエージェントシステムにおける課題に対応し、異種情報源の連携を可能にする。Orchestra-o1はOmniGAIAベンチマークで既存の次点手法を10.3%上回る精度を達成した。

大規模言語モデル (LLM) ベースのエージェントシステムは、単一エージェントからマルチエージェントシステムへとパラダイムが移行しており、タスク分解と連携のためのエージェントオーケストレーションの重要性が高まっている。しかし、既存のオーケストレーションフレームワークは限られたモダリティに制約され、テキスト、画像、音声、動画といった多様な入力の統一的理解と連携を要するオムニモーダルなシナリオにおいて、異種モダリティが共存・相互作用する複雑な設定への一般化に課題があった。

研究チームは、この課題に対し、複数のモダリティ間での効率的なエージェント連携を支援するオムニモーダルエージェントオーケストレーションフレームワーク「Orchestra-o1」を提案した。Orchestra-o1は、モダリティ認識型タスク分解、オンラインでのサブエージェント専門化、および並列サブタスク実行を可能にする統一されたオーケストレーションメカニズムを導入している。

このスケーラブルな設計により、エージェントシステムは異種情報源を伴う複雑な現実世界タスクに効果的に対応できるとしている。Orchestra-o1は、OmniGAIAベンチマークにおいて次点の方式を10.3%上回る精度を達成した。さらに、Orchestra-o1-8B(オーケストラ・オーワン・エイトビー)の訓練に用いられた効率的なエージェント強化学習手法であるDA-GRPO (decision-aligned group relative policy optimization)についても言及されている。このDA-GRPOも、既存のすべてのオープンソースオムニモーダルエージェントに対して最先端の性能を達成したと報告されている。


参考: arXiv cs.AI — 2026年6月15日 13:00 (JST)

この記事をシェア
X はてブ LinkedIn