lmcouncil.ai、最新AIモデルの性能比較結果を公開

lmcouncil.ai (エルエムカウンシル・ドット・エーアイ) は6月(現地時間)、最新のAIモデル比較結果「AI Model Benchmarks Jun 2026」を公開した。このベンチマークは、GPT-5.5やClaude Opus、Geminiシリーズなど複数の主要AIモデルを対象とし、多様な性能評価を集約している。報告書は各モデルが異なる強みを持つことを示しており、AI市場における性能競争の現状を浮き彫りにした。

lmcouncil.aiが発表したベンチマーク結果は、主要なAIモデルの現状と各モデルの特性を浮き彫りにしている。各モデルが特定の領域で優位性を示し、進化するAI技術の多様な側面を提示している。

公開されたベンチマークは、高度な推論、汎用的なタスク処理、長時間にわたる持続性、コーディング能力、質問応答、創造性など、多岐にわたる測定項目を含んでいる。それぞれのベンチマークで異なるAIモデルが優位性を示しており、特定の領域におけるモデルの強みが明らかになった。

具体的には、高度な推論能力を測るHumanity’s Last Examでは、Gemini 3.1 Pro Preview (high thinking)が46.4% ±2.0で首位を占めた。一方、汎用的なタスク処理能力を見るSimpleBenchではClaude Fable 5が81.9%でトップに立ち、幅広いタスクにおける堅実な性能を示している。長時間タスクの持続性を評価するMETR Time Horizonsでは、Claude Mythos Previewが1044.8分を記録した。

また、ソフトウェアエンジニアリングのコーディング能力を評価するSWE-bench VerifiedではClaude Opus 4.7 (max)が83.5% ±1.7で最上位となり、知識ベースの質問応答能力を測るGPQA DiamondではGPT-5.4 Pro (xhigh)が94.6% ±1.6のスコアを示した。推論能力を総合的に評価するGDPvalではGPT-5.2が49.7%で首位を獲得した。

さらに、コーディング関連の指標では、Text Arena (Coding)でClaude Opus 4.7が1566.9を、GSO (General Speedup Optimization)でもClaude Opus 4.7が44.1%を記録している。創造的な物語生成能力を測るFiction.liveBenchでは、o3 (medium)が100.0%の性能を示した。

これらの結果は、各AIモデルが異なる強みと焦点を持ち、特定のユースケースやタスクにおいて最適な選択肢が異なることを示唆している。

参考: lmcouncil.ai (アーカイブ) — 2026年6月29日 09:00 (JST)