Latent Spaceは2026年6月22日(現地時間)、ポッドキャストを公開し、その中でOpenAIのボードメンバーであるZico KolterとGray SwanのCEOであるMatt Fredriksonが、AIセキュリティの特性について解説した。両氏は、プロンプトインジェクションやAIエージェントが導入する新しい脆弱性クラスに焦点を当て、Gray Swanの取り組みと関連ツールについて言及。従来のサイバーセキュリティとは異なるAI固有のリスクと対策の必要性を強調した。

Zico KolterとMatt Fredriksonは、AIシステムが従来のソフトウェアとは異なる固有の脆弱性を持つと説明した。Carnegie Mellonでの長年の研究から生まれたGray Swanは、AIを安全かつセキュアに使用するためのソリューションを提供している。特に、エージェントがデータ漏洩や資格情報の窃取につながる誤動作を引き起こす可能性を指摘している。

米政府がMythosとFableに対して輸出規制指令を出したことで、ジェイルブレイクやプロンプトインジェクションのリスクが注目されているとLatent Spaceは報じた。KolterとFredriksonはIndirect Prompt Injectionsに関する論文の共著者であり、Gray SwanはMythosモデルカードの権威として引用され、まさに現在精査されている機能について直接調査している。彼らはAIレッドチーミングの現状について語り、Anthropicがモデルの堅牢性評価に使用する敵対的レッドチーミングツール「Shade」にも言及した。

Gray Swanのツールキットには、AIガードレール製品「Cygnal」やAI Red Teaming Arenaが含まれる。「Shade」は、AIシステムが人間よりもAIシステムを破壊するのに優れている例として挙げられた。KolterとFredriksonは、大規模なモデルが自動的に堅牢になるわけではなく、AIセキュリティがUntrusted data, Private data, and exfiltrationという「Lethal Trifecta」に対処する必要があるとの見方を示している。

AIエージェント、特にCodexやClaude Codeのようなシステムは、新たな脆弱性クラスを導入すると説明された。両氏は、「Open Claw」のようなコンピュータ利用エージェントが引き起こすセキュリティ上の問題、エージェント固有のアイデンティティやパーミッションの必要性についても議論した。将来的に、AIセキュリティは保険やコンプライアンスの一部となる可能性があり、プロンプトインジェクションによる大規模な侵害は避けられない「gray swan event」であるとの見方を示している。


参考: Latent Space — 2026年6月25日 03:53 (JST)

この記事をシェア
X はてブ LinkedIn