Don't Worry About the Vase (Zvi) は2026年6月2日(現地時間)、Anthropic(アンスロピック)が新たな大規模言語モデル「Claude Opus 4.8(クロード・オーパス4.8)」をリリースしたと報じた。本モデルは、正直さの向上と誤った挙動の削減を主な特徴とし、特にコーディング能力が大幅に強化されている。具体的には、SWE-bench Pro(スウェーベンチ・プロ)のスコアが向上したほか、自身の不確かさを表明し、バグを自己検出する能力も強化された。Opus 4.7と同価格で提供され、ユーザーは「努力レベル」の調整や研究プレビュー版の高速モードを利用できる。

Claude Opus 4.8は、現在利用可能なモデルの中で最良の一つと評されており、既存のOpus 4.7の長所を土台としつつ、一部の弱点に対応したと見られる。インテリジェンスレベルは高く、コーディング性能を含む多くの能力が向上したとされている。特にスピードの改善は顕著であり、チャットモードで思考を調整できる機能も新たに導入された。

ベンチマークテストの結果では、数値は控えめながらも全体的に上昇し、一部で実質的な改善が見られた。Anthropicは多数のベンチマークデータを提供しており、その総合的な評価として、GDPval-AA(ジーディーピーバル・エーエー)での堅実な改善や、GPT-5.5(ジーピーティー5.5)に対する66.7%の勝率を示唆するEloスコア1890が挙げられている。SWE-bench Proにおける「effort(努力)」パラメータの活用は、約1モデルサイクル分の性能向上に寄与することが示されている。

新機能として、Claude Codeにはダイナミックワークフローが導入された。ユーザーはcreate a workflowと指示するか、「ultracode」設定を有効にすることで、タスクを数十から数百の並列サブエージェントに展開し、その作業を調整、検証、反復して統合された結果を得ることが可能になる。また、Messages API(メッセージAPI)では、プロンプトキャッシュを損なうことなく指示を変更できるようになった。

一方で、Opus 4.8にはいくつかの弱点も指摘されている。創造性や好奇心の低下、あるいは自己懲罰ループを含むループに陥る可能性が挙げられる。プロンプトインジェクションに対する脆弱性が高く、敵対的状況、交渉、ビジネスといった場面では、他のモデルを選択することが望ましいとされる。また、モデルが厳しすぎたり、曖昧すぎたりする傾向があるという意見も存在し、おべっか嫌いと正直さ重視のつまみが過剰に調整されているように見える場合があるという。


参考: Don’t Worry About the Vase (Zvi) — 2026年6月2日 23:05 (JST)

原文ハイライト

"create a workflow"

この記事をシェア
X はてブ LinkedIn