リサーチ・論文

arXiv、マルチモーダルAIエージェント「Syll」発表 個人自動化を強化

科学論文公開サイト「arXiv cs.AI」は2026年5月28日(現地時間)、複数のインターフェースを横断して動作するオープンソースのマルチモーダルエージェントハーネス「Syll」を発表した。Syllは、API、シェル、ウェブインターフェース、デスクトップGUIといった多様なコンピューター環境でのパーソナルAIエージェント運用を可能にする。既存の自動化システムが単一インターフェースに特化し、ユーザーの教育や監査性が限られているという課題に対し、より柔軟な解決策を提示する狙いがある。

リサーチ・論文

macOS向け新ベンチマーク「MacArena」公開、CUA評価の課題解決へ

ヴィクター・ミューリン (Victor Muryn) 氏らの研究チームは6月4日(現地時間)、macOS環境でコンピュータ使用エージェント (Computer-use agents: CUAs) を評価するための新しいベンチマーク「MacArena」を導入したと発表した。同日付けで学術論文プレプリントサーバarXiv cs.LGに報じられた。既存のmacOS向けベンチマークが対応アプリケーションやタスク範囲が限定的であり、Apple Siliconとの互換性がないといった課題を解決し、より包括的な評価基準を提示する。

リサーチ・論文

「ToolCUA」がCUAのGUI・ツール連携を最適化、OSWorld-MCPでSOTA達成

arXiv cs.AIは2026年5月12日(現地時間)、コンピュータ利用エージェント (CUA) の操作最適化技術「ToolCUA」を発表した。ToolCUAは、グラフィカルユーザーインターフェース (GUI) 操作とAPIベースのファイル操作などの高レベルツール呼び出しが混在する環境において、最適な実行パスを学習するエンドツーエンドのエージェントである。従来のCUAがGUIとツールの連携で直面していた課題を解決し、OSWorld-MCPにおいてベースライン比で約66%改善の46.85%精度を達成。同規模モデル間で新たな最先端を示し、多様なデジタルタスク自動化への応用可能性を高める。