LM Council AIベンチマーク：推論Gemini 3.1 Pro、コーディングClaude Opus 4.7が首位

LM Council（エルエムカウンシル）は2026年5月(現地時間)、AIモデルの最新ベンチマーク結果を公開しました。この評価は、AI組織が自己申告するスコアとは異なり、AI Explained（エーアイエクスプレインド）によってキュレートされ、Epoch（エポック）やScale（スケール）といった独立機関によって実行されたものです。推論分野では、Gemini 3.1 Pro Preview（ジェミニ3.1プロプレビュー）がGPQA Diamond（ジーピーキューエーダイアモンド）で94.1%を記録し、最上位に位置しました。一方、コーディング分野では、Claude Opus 4.7（クロードオーパス4.7）(max)がSWE-bench Verified（スウェブベンチベリファイド）で83.5%のスコアを達成し、首位を獲得しました。

LM Council（エルエムカウンシル）によるベンチマークでは、AI Explained（エーアイエクスプレインド）がキュレーションを担当し、Epoch（エポック）やScale（スケール）などの独立した機関が実行を担いました。

推論能力と知識の深さを評価するHumanity’s Last Exam（ヒューマニティーズラストイグザム）では、Gemini 3.1 Pro Preview（ジェミニ3.1プロプレビュー）が44.7%のスコアでトップに立ちました。これにGPT-5.5 (xhigh)が44.3%、GPT-5.5 (high)が43.0%で続きました。また、常識的推論を問うSimpleBench（シンプルベンチ）では、Gemini 3.1 Pro Previewが79.6%で最も高いスコアを示しました。

PhDレベルの科学問題を対象としたGPQA Diamond（ジーピーキューエーダイアモンド）では、GPT-5.4 Pro (xhigh)が94.6%で首位を獲得し、Gemini 3.1 Pro Previewは94.1%でこれに続きました。

コード修正能力を評価するSWE-bench Verified（スウェブベンチベリファイド）では、Claude Opus 4.7（クロードオーパス4.7）(max)が83.5%で最高スコアを達成し、Claude Opus 4.6 (high)が78.7%でこれに続きました。AIモデルが50%の成功率に達するまでの人間タスク期間を測るMETR Time Horizons（メトルタイムホライズンズ）では、Claude Opus 4.6 (unknown thinking)が718.8分と最長を記録しました。

その他、知識労働の44職種を対象としたGDPval（ジーディーピーバル）では、GPT-5.4が83.0%でトップとなりました。ソフトウェア性能最適化能力を測るGSO（ジーエスオー）では、GPT-5.2 (high)が27.4%で首位に立ちました。長文コンテキスト理解を重視するFiction.liveBench（フィクションライブベンチ）では、o3 (medium)が100.0%を記録。テキストベースゲームでの成功率を評価するBALROG（バルログ）では、Gemini 3 Flashが48.1%で最高スコアを示しました。

参考: lmcouncil.ai — 2026年5月23日 09:00 (JST)