Anthropic、最先端AI「Claude Mythos Preview」の制御不能リスクを指摘

Anthropicは2026年6月2日(現地時間)、同社の最先端AIモデル「Claude Mythos Preview」のアクセスを拡大したと発表した。同社は、このモデルが悪用された場合、既存のサイバーセキュリティ概念を破壊する可能性を秘めていると指摘。Project Glasswing構想を通じて、電力、水、医療、通信、ハードウェア産業など15カ国の150組織にモデルへのアクセスを提供し、これらの組織が多数の政府機関に依存されるコードベースを維持していることから、大規模なサイバー攻撃の標的となる可能性を懸念している。

Anthropicは、これら新規パートナー組織に対する大規模なサイバー攻撃が発生した場合、1億人以上に影響が及び、国家および世界の安全保障に波及する可能性を試算している。新規パートナー組織は、以前のパートナーと同様に、モデルを限定的な容量で使用し、セキュリティ脆弱性をテスト・特定することを求められている。これは、ハッカーや他のモデルが悪用する前に脆弱性を修正し、対処することを目的としている。

同モデルの利用状況について、CloudflareはClaude Mythos Previewがエクスプロイトチェーン構築、すなわち複数のバグを組み合わせて単一の脆弱性よりも大きな損害を与える一連の攻撃を生成する能力に特に優れている可能性があると指摘した。しかし、Anthropicは、モデルの有機的な保護機能（拒否すべきリクエスト）が一貫性を欠き、一見無関係な変更後に変化する可能性があると指摘している。また、Claude Mythos Previewは脆弱性の特定には優れているものの、パッチを適用する能力は十分ではなく、モデルにパッチを自己記述させると、通常はコードベースの他の部分を破壊する結果になったという。

セキュリティ企業Aisleは、複数の小規模なオープンソースモデルが、AnthropicがClaude Mythos Preview発表時に強調した脆弱性と同じものを見つけたことを示しており、これらの脆弱性は人間によって何十年も気づかれていなかった。一部のサイバーセキュリティ専門家はNew York Timesに対し、モデルを厳重に管理することが広範囲なセキュリティ脆弱性の問題を解決するのではなく、少数のプレイヤーに先行者利益を与えるだけだと示唆している。また、この制限されたアクセスは、AnthropicにとってClaude Mythos Previewの評価を極めて困難にする効果（と利益）をもたらすとも指摘されている。これは現代のサイバーセキュリティ実践で広く批判されるセキュリティ・バイ・オブスキュリティの現代版であると見られている。

参考: gizmodo.com — 2026年6月3日 03:15 (JST)