Anthropicのモデル停止、「個人的衝突」が原因か

アクシオス (Axios) は2026年6月15日(現地時間)、Anthropic のモデルサービスが停止した背景には「個人的な衝突」があったと報じた。同記事は、同社のフロンティア・レッドチームとセイフガード責任者の間の意見の相違に焦点を当てている。米国政府の輸出規制を巡る状況下で、政府関係者やアンソロピックに近い情報源からの情報が多く引用されており、組織内部の緊張がサービス運用に影響を与えた可能性が指摘されている。

アクシオス (Axios) の報道によると、アンソロピックのフロンティア・レッドチームを率いるローガン・グラハム (Logan Graham) 氏、ヘッド・オブ・セーフガーズのデイブ・オーア (Dave Orr) 氏、そしてニコラス・カーリニ (Nicholas Carlini) 氏が、ワシントンD.C.で商務省との会合を予定している。グラハム氏は過去に、ボリス・ジョンソン (Boris Johnson) 政権下で首相特別顧問としてAI、科学、技術政策を担当した経験を持つ。

記事は、モデルが「jailbroken」（安全策を回避）される問題に言及し、完璧なjailbreak耐性の実現は困難かもしれないとの見方を示した。また、政権の考えに詳しい情報源は、解決策の一つとして、Anthropic のモデルがjailbreakされないようにすることに加え、組織内での態度修正が必要になる可能性を示唆している。

Anthropic は、自社のモデルに対してuniversal jailbreak（普遍的な安全策回避）は発見されていないと主張しており、米国政府の対応を引き起こしたjailbreakをa potential narrow, non-universal jailbreak（潜在的な狭い範囲での非普遍的な安全策回避）と分類している。同社は2023年の論文Universal and Transferable Adversarial Attacks on Aligned Language Modelsで記述された攻撃クラスへの対応として、今年1月に発表されたConstitutional Classifiersの取り組みが関連していると見られる。

参考: Simon Willison’s Weblog — 2026年6月15日 23:57 (JST)