Anthropic、未公開フロンティアモデルへの不正アクセスと一般公開計画を否定

Anthropicは2026年5月17日（現地時間）、防御的サイバーセキュリティ用途に限定して提供している未公開フロンティアモデル「Claude Mythos Preview（クロード・ミトス・プレビュー）」について、一般公開の計画は存在しないと改めて否定した。同モデルはアップル社のmacOS向けカーネルエクスプロイト開発への関与が報告されており、発表日の4月7日にはサードパーティベンダーの認証情報を悪用した不正アクセスが発生していたことも判明している。

Claude Mythos Previewは、Anthropic（アンソロピック）が2026年4月7日に発表したProject Glasswing（プロジェクト・グラスウィング）の枠組みのもとで運用される。Amazon Web Services（アマゾン・ウェブ・サービス）、Apple（アップル）、Cisco（シスコ）、CrowdStrike（クラウドストライク）、Google（グーグル）、JPMorgan Chase（JPモルガン・チェース）、Linux Foundation（リナックス・ファンデーション）、Microsoft（マイクロソフト）を含む12の主要パートナーと40以上の審査済み組織が、防御的なサイバーセキュリティ作業に限定したアクセスを許可されている。

同モデルの能力については、arXiv論文2605.14153で公開されたExploitBench（エクスプロイトベンチ）ベンチマークが参照されている。セキュリティ研究者Seunghyun Lee（スンヒョン・リー）氏とコンピュータ科学者David Brumley（デビッド・ブラムリー）氏が設計したと見られる同ベンチマークは41件の既知脆弱性を対象とし、研究者の指導ありの条件では41件中21件で最高ティアに到達して平均9.90点を記録した。完全自律モードでは16点満点中平均9.55点を達成し、2位のOpenAIのGPT-5.5が記録した平均4.30点を大幅に上回った。Lee氏はMythosの動作を有能なブラウザ/JSエンジンセキュリティ研究者のようだと評している。ただし、ベンチマーク対象の脆弱性はいずれも公開情報であり、学習データへの汚染が含まれる可能性は排除できない。

4月7日の不正アクセスは、Anthropicのモデル評価を担うサードパーティコントラクターから取得した認証情報と、人材スタートアップMercor（メルコア）のデータ侵害で流出した情報を組み合わせ、モデル識別子URLの書式を推測してMythosのエンドポイントに到達する手法で実行されたとされる。アクセスを行ったグループはBloomberg（ブルームバーグ）の取材に対し、目的はサイバー攻撃ではなく「探索」だったと説明した。Anthropicはこの件の調査を継続しており、ベンダー環境外での活動を示す証拠は現時点では確認されていないとしている。

一方、Google Cloud Vertex AI（グーグル・クラウド・バーテックス・エーアイ）のコンソール変更を根拠に「一般公開が近い」との観測が一部で広まったが、Anthropicはこれを明確に否定した。Project Glasswingのページおよび同モデルのシステムカードにも、一般公開を行わない方針が明記されている。

参考: techtimes.com — 2026年5月17日 19:29 (JST)