Qwen3.7 Max、中国AIモデルランキングで首位 BenchLM発表

BenchLM.aiは2026年6月13日(現地時間)、中国のAIモデルランキングにおいて、AlibabaのQwen3.7 Maxがスコア91でトップを獲得したと発表した。これにAlibabaのQwen3.7 Plusがスコア88で続き、DeepSeekのDeepSeek V4 Pro (Max)がスコア86で3位に入った。オープンウェイトモデルの中ではDeepSeek V4 Pro (Max)が最高評価を得ている。

BenchLM.aiの最新ランキングBenchLM Chinese Leaderboard Snapshotによると、AlibabaのQwen3.7 Maxが総合スコア91を記録し、中国製AIモデルの最高峰に位置付けられた。これに続くのは、同じくAlibabaのQwen3.7 Plusでスコア88を獲得し2位、そしてDeepSeekのDeepSeek V4 Pro (Max)がスコア86で3位となった。これら上位モデル間には性能面で明確な差が確認されている。

ランキングには合計43のモデルが含まれており、中国のAI研究開発が活発であることを示している。AlibabaのQwenシリーズ、DeepSeek、Zhipu GLM、ByteDance Seed、StepFunといった主要なAIラボが、数学、推論、エージェントワークフローといった複雑なタスク処理能力において、特に強力なモデルを開発している実態が浮き彫りになった。これらのモデルは、GPTやClaudeのようなプロプライエタリモデルとも性能面で競合しうるレベルに達している。

特に注目すべきは、オープンウェイトモデルの分野でDeepSeek V4 Pro (Max)が3位にランクインし、オープンウェイトオプションの中で最も高い総合スコアを獲得した点である。これは、プロプライエタリAPIの代替として、企業や開発者がモデルを自己ホスティングする選択肢が現実的になりつつあることを示唆している。

また、Zhipu AIのGLM-5 (Reasoning)は、特定の評価分野で顕著な性能を発揮した。特に数学で93、推論で88、エージェントワークフローで86という高いスコアを記録し、これらの専門分野において中国のAIラボが開発したモデルの中で最高スコアを示した。GLM-5 (Reasoning)は、特定の複雑な問題解決能力において極めて高い能力を持つことが示されている。

参考: benchlm.ai — 2026年6月12日 09:00 (JST)