OpenAIとパラダイムがAIエージェント向けスマートコントラクト評価ベンチマーク「EVMbench」を発表

OpenAIは2026年6月16日(現地時間)、パラダイム (Paradigm) と共同で、AIエージェントのスマートコントラクト脆弱性評価能力を測る新たなベンチマーク「EVMbench」を発表した。このベンチマークは、ブロックチェーン環境における脆弱性の検出、修正、悪用といったAIエージェントの能力を定量的に評価することを目的としている。オープンソースの暗号資産では1000億ドル以上がスマートコントラクトによって保護されており、AIエージェントのコード読み書き能力の向上に伴い、経済的に重要な環境でのその能力測定が重要視されている。

EVMbenchは、40件の監査から厳選された117件の脆弱性を基に構築された。これらの脆弱性の多くは、オープンなコード監査コンペティションから収集されたものである。加えて、ステーブルコインを用いた高スループットかつ低コストの決済を可能にする目的で構築されたL1ブロックチェーン「Tempo」のセキュリティ監査プロセスから得られた脆弱性シナリオも複数含まれる。

EVMbenchは、三つの能力モードを評価する。一つ目は「Detect」で、エージェントはスマートコントラクトリポジトリを監査し、真の脆弱性の検出率と関連する監査報酬に基づいて評価される。二つ目は「Patch」で、エージェントは脆弱なコントラクトを修正し、機能性を維持しつつ悪用可能性を排除する。これは自動テストと悪用チェックによって検証される。三つ目は「Exploit」で、エージェントはサンドボックス化されたブロックチェーン環境上でデプロイされたコントラクトに対するエンドツーエンドの資金流出攻撃を実行し、トランザクションのリプレイとオンチェーン検証を通じてプログラム的に採点される。

評価の客観性と再現性を確保するため、OpenAIはRustベースのハーネスを開発し、コントラクトのデプロイ、エージェントトランザクションの確定的リプレイ、および安全でないRPCメソッドの制限を行う。Exploitタスクはライブネットワークではなく、隔離されたローカルのAnvil環境で実行され、脆弱性は過去のもので公開されている。

フロンティアエージェントの評価では、Exploitモードにおいて、Codex CLI経由で実行されたGPT-5.3-Codexが71.0%のスコアを達成した。これは、わずか6ヶ月前にリリースされたGPT-5の33.3%というスコアから大幅な向上を示す。Detectの検出率とPatchの成功率は依然として完全なカバーには至っておらず、多くの脆弱性がエージェントにとって発見および修正が困難なままである。エージェントは目的が明確なExploit設定で最高のパフォーマンスを発揮する一方、DetectやPatchタスクでは性能が低下する傾向が見られた。

EVMbenchは、実世界のスマートコントラクトセキュリティの完全な難易度を代表するものではないという限界を認めている。含まれる脆弱性はCode4rena監査コンペティションから抽出されたものであり、これらは現実的で高深刻度だが、多くの広く利用されている暗号資産コントラクトはさらに厳格な審査を受けており、悪用がより困難である可能性がある。グレーディングシステムも堅牢ながら不完全であり、Detectモードでは人間が見落とした真の脆弱性か、偽陽性かを判断する信頼できる方法が現在のところない。Exploit設定にも構造的な限界があり、トランザクションがシーケンシャルにリプレイされるため、正確なタイミングメカニクスに依存する挙動は範囲外となる。

スマートコントラクトが数十億ドル規模の資産を保護していること、そしてAIエージェントが攻撃者と防御者の双方に変革をもたらす可能性が高いことから、この領域でのモデル能力を測定することは、新たなサイバーリスクを追跡し、AIシステムを防衛的に活用してデプロイ済みのコントラクトを監査・強化することの重要性を浮き彫りにする。OpenAIは、EVMbenchを測定ツールであると同時に行動を促すものと位置づけている。エージェントの性能向上に伴い、開発者やセキュリティ研究者がAI支援監査をワークフローに組み込むことが重要になるとした。

OpenAIは過去数ヶ月にわたり、サイバーセキュリティタスクにおけるモデル性能の著しい向上を確認しており、開発者とセキュリティ専門家の双方に恩恵をもたらしている。同時に、防御的な利用とエコシステム全体のレジリエンスをサポートするためのサイバーセーフガードを強化している。サイバーセキュリティが本質的にデュアルユースであることを踏まえ、OpenAIは防御者が脆弱性を発見・修正する能力を加速させつつ、誤用を抑制する証拠に基づいた反復的なアプローチを採用している。対策には、安全性トレーニング、自動監視、高度な機能への信頼できるアクセス、脅威インテリジェンスを含む施行パイプラインが含まれる。

OpenAIはエコシステムセーフガードへの投資も進めており、セキュリティ研究エージェント「Aardvark」のプライベートベータ版の拡大や、オープンソースメンテナーとの提携による広く利用されているプロジェクト向けコードベーススキャンニングの無償提供を行っている。2023年に開始したサイバーセキュリティグラントプログラムを基盤とし、最も有能なモデルによるサイバー防御加速のため、特にオープンソースソフトウェアや重要インフラシステム向けに1000万ドル (10Mドル) のAPIクレジットを提供する方針を示している。OpenAIは、EVMbenchのタスク、ツール、評価フレームワークを公開し、進化するAIサイバー能力の測定と管理に関する継続的な研究を支援する。

参考: openai.com (アーカイブ) — 2026年6月17日 10:00 (JST)