研究者らは6月8日(現地時間)、arXiv cs.LGが公開した論文で、パーソナルにインテリジェントな電話エージェントの評価を目的とした初のインタラクティブなネイティブiOSシミュレーターベンチマーク「iOSWorld」を発表した。ユーザーのアイデンティティ、履歴、好みに基づく推論を行うエージェントを評価するためのもので、既存のモバイルエージェントベンチマークに不足していたパーソナライゼーション機能の検証に焦点を当て、永続的なユーザーアイデンティティを中心に設計されている。
「iOSWorld」は、新たに開発された26のiOSアプリ群にわたる接続されたデータを使用するベンチマークだ。これらのアプリには、トランザクション履歴、メッセージのやり取り、旅行記録、社会的関係、金融活動など、多様なユーザーデータが含まれている。
ベンチマークには、合計133のタスクが設定されており、これらは難易度が異なる3つのカテゴリーに分けられる。具体的には、単一のアプリ内で完結するタスクが27、2から8のアプリにまたがる操作を要求するマルチアプリタスクが60、そして個人のデータからパターンを推論するようエージェントに求める記憶およびパーソナライゼーションタスクが46含まれる。これにより、エージェントがユーザーの状況を深く理解し、それに基づいた行動をどれだけ実行できるかを評価する。
研究者らは、最先端のコンピュータ利用モデルとオープンソースモデルの両方を評価した。評価は、ビジョンのみの設定と、特権的なビジョンとXML(Extensible Markup Language)設定の両方で行われた。その結果、最良の構成では全体のスコアが52パーセントに達したものの、複数のアプリにわたる複雑なマルチアプリタスクでは37パーセントにとどまる結果となった。特権的なビジョンとXMLアクセスが提供された場合、最先端モデルの性能は最大26パーセンテージポイント向上したが、小規模なモデルは追加されたアクセシビリティツリー入力から明確な恩恵を受けることはなかった。
「iOSWorld」はオープンソースベンチマークとして公開されており、全てのアプリ、シードデータ、タスク定義、評価基準、および評価コードが含まれる。著者として、ローレンス・キュンホ・チャン氏、マレクス・ウッドサイド氏、ジェロニモ・キャロム氏、アンドリュー・キュンウー・チャン氏、ジン・ユー・コー氏、ルスラン・サラフトディノフ氏らが名を連ねている。
参考: arXiv cs.LG — 2026年6月9日 02:27 (JST)
原文ハイライト"iOSWorld: A Benchmark for Personally Intelligent Phone Agents"