OpenAIは2026年6月21日(現地時間)、同社のブラウザエージェント「ChatGPT Atlas」に対するプロンプトインジェクション攻撃への防御を強化したと発表した。強化学習(RL)を基盤とした自動レッドチームシステムが新たな攻撃手法を発見したことを受け、セキュリティアップデートを適用した。これにより、エージェントモデルと保護措置が強化された。

ChatGPT Atlasの「agent mode」は、ユーザーのブラウザ内でウェブページを閲覧し、クリックやキー操作を実行する。この機能は日常のワークフローを効率化する一方で、悪意のある攻撃の標的となり得る。特にプロンプトインジェクションは主要なリスクの一つとして認識されており、OpenAIはagent in the browserパラダイムにおける防御策の構築と強化を継続してきた。今回のセキュリティアップデートは、内部の自動レッドチームシステムによって発見された新たな種類のプロンプトインジェクション攻撃に対応するためのものとされる。

OpenAIは、これらの攻撃を大規模に発見するため、LLMベースの自動攻撃者システムを構築し、強化学習を用いて訓練した。このシステムは、成功と失敗から学習することでレッドチームのスキルを向上させる。攻撃者は候補となるインジェクションを外部シミュレーターに送り、ターゲットとなるエージェント(防御側)がどのように振る舞うかを評価する。これにより、単一のパス/フェイル信号よりも豊富なフィードバックを得て、攻撃を反復改善する。

強化学習は、長期にわたる洗練された攻撃目標の最適化、最先端のLLM能力の活用、そして計算規模の拡大と適応的な攻撃者の模倣に適していると説明されている。この自動攻撃者は、これまでの多くの自動レッドチーム研究が発見してきた単純な失敗とは異なり、エージェントを洗練された、長期的な有害なワークフローに誘導するようなプロンプトインジェクション攻撃を発見できる。OpenAIはプロンプトインジェクションを長期的なAIセキュリティ課題と見なしており、防御の継続的な強化が必要であるとの見解を示している。


参考: openai.com (アーカイブ) — 2026年6月22日 10:00 (JST)

原文ハイライト

"Automated red teaming—powered by reinforcement learning—helps us proactively discover and patch real-world agent exploits"

この記事をシェア
X はてブ LinkedIn