arXiv、検証可能なソフトウェア世界「OpenComputer」発表

科学論文プレプリント公開サイトarXivは2026年5月19日(現地時間)付けで、コンピュータ利用エージェント向けに検証可能なソフトウェア世界を構築するためのフレームワーク「OpenComputer」を発表した。このフレームワークは、実アプリケーションに対する構造化された検査、自己進化型検証、デスクトップタスク生成、評価ハーネスの四つの主要コンポーネントを統合する。

OpenComputerフレームワークは、以下の四つのコンポーネントを統合して機能する。

アプリケーション固有の状態検証者：実際のアプケーション上で構造化された検査エンドポイントを公開する。
自己進化型検証レイヤー：実行に基づいたフィードバックを利用し、検証者の信頼性を向上させる。
タスク生成パイプライン：現実的で機械的に検証可能なデスクトップタスクを合成する。
評価ハーネス：完全な軌跡を記録し、監査可能な部分点報酬を算出する。

現在のOpenComputerは、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャー、通信アプリケーションなど、33種類のデスクトップアプリケーションと1,000の確定されたタスクをカバーしている。

実験では、OpenComputerのハードコードされた検証者が、特にきめ細かいアプリケーションの状態に成功が依存する場合において、LLMを判定者とする評価よりも人間の判定とより密接に一致することが示された。また、フロンティアエージェントは部分的な進捗にもかかわらずエンドツーエンドのタスク完了に苦戦し、オープンソースモデルはOSWorld-Verifiedスコアから大幅な低下を示した。これは、堅牢なコンピュータ自動化において持続的なギャップが存在することを示している。この論文の著者には、ジンビアオ・ウェイ (Jinbiao Wei) 氏らが名を連ねる。

参考: arXiv cs.AI (アーカイブ) — 2026年5月19日 21:40 (JST)