pricepertoken.comは6月22日(現地時間)、ソフトウェアエンジニアリング能力を評価するベンチマーク「SWE-bench Lite」のリーダーボードが更新され、AnthropicのClaude Opus 4.6が62.7%のスコアで首位を獲得したと報じた。このベンチマークは、実際のGitHubの問題解決能力をテストするもので、人工知能 (AI) モデルのパフォーマンスを比較する際の重要な指標となっている。競争が激化するAI開発において、具体的なタスク解決能力の高さが注目されている。

pricepertoken.comが6月22日(現地時間)に公開した情報によると、ソフトウェアエンジニアリング能力を測るためのベンチマーク「SWE-bench Lite」の最新リーダーボードで、AnthropicのClaude Opus 4.6が62.7%という高いスコアを記録し、首位に立った。

SWE-bench Liteは、実際のGitHubリポジトリから抽出された問題に対し、AIモデルがコードを生成し解決する能力を評価する。これは、理論的な知識だけでなく、現実世界の複雑なソフトウェア開発タスクに対処するモデルの実用性を測る上で極めて重要なベンチマークとされている。

現在のリーダーボードでは、Claude Opus 4.6に続き、MiniMaxのMiniMax M2.5が56.3%、OpenAIのGPT-5が54.3%のスコアでそれぞれ2位と3位を占めている。上位モデルが実用的なプログラミング問題解決において高い能力を示していることがわかる。

このベンチマークのデータはLayerLensによって提供されており、現在までに51の異なるAIモデルが評価されている。これらのモデル全体の平均スコアは25.5%で、標準偏差は20.1%となっており、モデル間でのパフォーマンスに大きなばらつきがあることを示している。上位モデルが平均値を大きく上回る性能を発揮していることが、その技術的優位性を際立たせている。

各モデルの評価結果には、その性能を示すスコアと同時に、インプットおよびアウトプットのトークン単価も併記されている。この情報は、開発者がモデルを選定する際に、単なる性能だけでなく、運用コストとのバランスを考慮するための重要な判断材料となる。高性能モデルであっても、その利用にかかるコストが高ければ、実用的な導入においては慎重な検討が求められるため、このコスト情報はモデルの実用性を多角的に評価する上で不可欠である。


参考: pricepertoken.com (アーカイブ) — 2026年6月22日 09:00 (JST)

この記事をシェア
X はてブ LinkedIn