arXiv、マルチモーダルAIエージェント「Syll」発表個人自動化を強化

科学論文公開サイト「arXiv cs.AI」は2026年5月28日(現地時間)、複数のインターフェースを横断して動作するオープンソースのマルチモーダルエージェントハーネス「Syll」を発表した。Syllは、API、シェル、ウェブインターフェース、デスクトップGUIといった多様なコンピューター環境でのパーソナルAIエージェント運用を可能にする。既存の自動化システムが単一インターフェースに特化し、ユーザーの教育や監査性が限られているという課題に対し、より柔軟な解決策を提示する狙いがある。

Syllは、複数のコンピューターインターフェースを連携させるためのモジュラーランタイムを基盤としている。具体的には、外部のプログラムやサービスと連携するMCP/APIツール、コマンドラインを通じたCLI実行、そして視覚的なGUI制御を統合。これにより、エージェントは異種インターフェース間で一連の作業をシームレスに連携させ、実行することが可能になると研究チームは説明している。

このシステムの中核をなすのは、双方向のユーザー・エージェント相互作用層である。ユーザーは、Syllに対し直接的なデモンストレーションを通じて特定のタスクの手順を教えることができる。例えば、ウェブブラウザでの操作やデスクトップアプリケーションでのクリック・入力などを実際に行うことで、Syllはその一連の動作を学習し、再利用可能なスキルへとコンパイルする仕組みが採られている。このアプローチにより、プログラミング知識がないユーザーでも、自身のコンピューター使用環境に合わせたAIエージェントを容易に構築できるよう設計されている。

エージェントがタスクを実行する際には、その過程が検査と制御のために「マルチモーダルな証拠」へと変換される。これは、実行ログ、操作時のキーフレーム画像、そしてユーザーによる承認を求めるチェックポイントなどから構成される。これにより、ユーザーはエージェントの動作状況を詳細に確認し、必要に応じて介入することが可能となるため、AIの判断過程における透明性と監査性が高まるとされる。

さらにSyllは、エージェントの学習内容や設定に関する「メモリ」「スキル」「ルーチン」「ガバナンス」といった要素を、編集可能なローカル成果物として外部に保存する機能を備えている。これにより、ユーザーはAIの学習済みスキルを容易に検査し、自身のニーズに合わせて拡張したり、さらなる改善や開発を進めたりすることが可能となる。これらの成果物は、テキストファイルや特定のデータ形式で管理され、ブラックボックス化を避けることで、AIのパーソナルな自動化基盤としての柔軟性を高めている。

Syllの実装は、Adobe Photoshop、Adobe Audition、Stardew Valley、macOS Finderといったデスクトップアプリケーションでの動作検証が行われた。研究では、マルチモーダルルーティング、ティーチャブルGUIリプレイ、そして永続的なローカル成果物といった主要機能の有効性を検証するメカニズム指向の調査が報告されている。これらの調査を通じて、Syllが個人自動化のための実用的なオープンソース基盤として機能することが示された。

参考: arXiv cs.AI — 2026年6月9日 13:00 (JST)