GPT-5.6 Pro、Chatbot Arena Elo首位維持上位8モデル性能差は過去最小

プレセンスエーアイ (Presenc AI) は6月(現地時間)、同社が公開した「LMSYS Chatbot Arena Eloリーダーボード2026年6月版」において、OpenAIのGPT-5.6 Proがランキング首位に立ったと発表した。GPT-5.6 ProはEloスコア約1465を記録し、2位のAnthropic (アンソロピック) のClaude Mythos 5の約1458をわずか7 Eloポイント差で抑えた。また、上位8モデルのEloスコアは約55ポイントの範囲に集中しており、これは過去最小のスプレッドである。

大規模言語モデル (LLM) のブラインドA/B評価として広く知られるLMSYS Chatbot Arenaの最新スナップショットが公開された。2026年6月時点のランキングでは、OpenAIのGPT-5.6 Proが約1465 Eloで首位を獲得。続く2位にはAnthropic (アンソロピック) のClaude Mythos 5が約1458 Elo、3位には同社のClaude Opus 4.7が約1452 Eloで入った。GoogleのGemini 3.2 Proが4位で約1448 Elo、OpenAIのGPT-5.6が5位で約1440 Eloを記録するなど、上位モデルが極めて僅差で競り合う展開となった。

オープンウェイトモデルでは、ディープシーク (DeepSeek) のDeepSeek V4.1 Proが最高位の8位に入り、トップのクローズドモデルから約55 Eloポイント以内に入った。さらに、ProやMythosなどの専門化されたモデルバリアントは、ベースバリアントと比較して、より識別能力の高いプロンプトサブセットである「Arena Hard」で6から15 Eloポイント高いスコアを示しているものの、デフォルトのChatbot Arenaではその差はより小さいとされている。

今回の結果が示すのは、フロンティアLLM間の性能差が急速に縮小しているという市場の構造変化と見られる。上位モデルがごく僅差で並ぶ状況は、かつて特定のモデルが圧倒的な優位性を持っていた時代から、AIモデルが急速にコモディティ化している可能性を示唆している。これにより、今後は純粋な性能だけでなく、コスト、特定のタスクへの最適化、そしてプラットフォーム統合といった要素が、開発ベンダー各社の競争戦略においてより重要な鍵となると考えられる。

Chatbot ArenaにおけるEloスコアは毎日変動する近似値であり、Presenc AIはこの評価を通じて、フロンティアモデルの競争力学の変化を継続的に追跡し、市場動向の把握に役立てている。

参考: presenc.ai (アーカイブ) — 2026年6月10日 09:00 (JST)