LM Council(エルエムカウンシル)は2026年5月(現地時間)、AIモデルの最新ベンチマーク結果を公開しました。この評価は、AI組織が自己申告するスコアとは異なり、AI Explained(エーアイエクスプレインド)によってキュレートされ、Epoch(エポック)やScale(スケール)といった独立機関によって実行されたものです。推論分野では、Gemini 3.1 Pro Preview(ジェミニ3.1プロプレビュー)がGPQA Diamond(ジーピーキューエーダイアモンド)で94.1%を記録し、最上位に位置しました。一方、コーディング分野では、Claude Opus 4.7(ク ロードオーパス4.7)(max)がSWE-bench Verified(スウェブベンチベリファイド)で83.5%のスコアを達成し、首位を獲得しました。

LM Council(エルエムカウンシル)によるベンチマークでは、AI Explained(エーアイエクスプレインド)がキュレーションを担当し、Epoch(エポック)やScale(スケール)などの独立した機関が実行を担いました。

推論能力と知識の深さを評価するHumanity’s Last Exam(ヒューマニティーズラストイグザム)では、Gemini 3.1 Pro Preview(ジェミニ3.1プロプレビュー)が44.7%のスコアでトップに立ちました。これにGPT-5.5 (xhigh)が44.3%、GPT-5.5 (high)が43.0%で続きました。また、常識的推論を問うSimpleBench(シンプルベンチ)では、Gemini 3.1 Pro Previewが79.6%で最も高いスコアを示しました。

PhDレベルの科学問題を対象としたGPQA Diamond(ジーピーキューエーダイアモンド)では、GPT-5.4 Pro (xhigh)が94.6%で首位を獲得し、Gemini 3.1 Pro Previewは94.1%でこれに続きました。

コード修正能力を評価するSWE-bench Verified(スウェブベンチベリファイド)では、Claude Opus 4.7(クロードオーパス4.7)(max)が83.5%で最高スコアを達成し、Claude Opus 4.6 (high)が78.7%でこれに続きました。AIモデルが50%の成功率に達するまでの人間タスク期間を測るMETR Time Horizons(メトルタイムホライズンズ)では、Claude Opus 4.6 (unknown thinking)が718.8分と最長を記録しました。

その他、知識労働の44職種を対象としたGDPval(ジーディーピーバル)では、GPT-5.4が83.0%でトップとなりました。ソフトウェア性能最適化能力を測るGSO(ジーエスオー)では、GPT-5.2 (high)が27.4%で首位に立ちました。長文コンテキスト理解を重視するFiction.liveBench(フィクションライブベンチ)では、o3 (medium)が100.0%を記録。テキストベースゲームでの成功率を評価するBALROG(バルログ)では、Gemini 3 Flashが48.1%で最高スコアを示しました。


参考: lmcouncil.ai — 2026年5月23日 09:00 (JST)

この記事をシェア
X はてブ LinkedIn