Claude Sonnet 5、タスクあたりコスト増加を伴う性能向上

アーティフィシャル・アナリシス (Artificial Analysis) は2026年6月29日(現地時間)付けの報告で、Anthropic の最新モデル「Claude Sonnet 5」が、高いエージェント的性能を示す一方で、タスクあたりの実コストが増加していると発表した。同モデルは「Artificial Analysis Intelligence Index」で53ポイントを獲得し、GPT-5.5と同等のスコアを達成している。

アーティフィシャル・アナリシスの分析によると、Claude Sonnet 5はIntelligence Indexタスクあたり2.29ドルのコストを要する。これはSonnet 4.6と比較して約2倍の増加であり、Claude Opus 4.8と比較しても約15%高い。このコスト増加は、Intelligence Indexタスクにおける出力トークン数がSonnet 4.6比で約40%増加したこと、また知識労働評価ベンチマーク「AA-Briefcase」および「GDPval-AA」におけるエージェントターン数が約3倍に増加したことに起因する。

モデルの基本料金はSonnet 4.6と同じで、入力100万トークンあたり3ドル、出力100万トークンあたり15ドルであるが、9月1日までは2ドル/10ドルの割引が適用される。キャッシュ料金は書き込みが25%増しの100万トークンあたり3.75ドル、キャッシュヒットが90%割引の100万トークンあたり0.3ドルとなっている。

エージェント的知識労働タスクにおいては、Sonnet 5はAA-BriefcaseおよびGDPval-AAの両ベンチマークでOpus 4.8をわずかに上回った。これらのベンチマークは、オープンソースのエージェントハーネス「Stirrup」を使用して、モデルが正確で適切に提示された専門的出力を生成する能力を評価する。

一方、推論および知識集約型タスクでは、Sonnet 5はOpus 4.8に依然として劣る。ArgonneとUIUCの研究者が開発したフロンティア物理学推論ベンチマーク「CritPt」では、Sonnet 5は17%のスコアを記録し、前身モデルから14ポイント改善したものの、GLM-5.2、Claude Opus、Fable、およびGPT-5.5 (xhighおよびPro) には及ばない。その他のベンチマークでは、Terminal-Bench v2.1で9ポイント、Humanity’s Last Examで10ポイント、「SciCode」で7ポイントの改善が見られた。

Claude Sonnet 5のコンテキストウィンドウはSonnet 4.6と同等の100万トークンである。「effort」設定はモデルのパフォーマンスとレイテンシを調整する推奨方法であり、Sonnet 5にはSonnet 4.6に追加された「xhigh」を含む、Opus 4.8と同じ5段階の「effort」レベル (max, xhigh, high, medium, low) が用意されている。

参考: artificialanalysis.ai (アーカイブ) — 2026年6月30日 09:00 (JST)