Zhipu AI(チープーAI)は6月17日(現地時間)、同社の言語モデル「GLM-5.2」が「Artificial Analysis Intelligence Index v4.1(アーティフィシャル・アナリシス・インテリジェンス・インデックス v4.1)」でオープンウェイトモデルのトップに立ったと発表した。GLM-5.2は同指標で51点を獲得し、競合のMiniMax-M3(ミニマックス-M3)やDeepSeek V4 Pro max(ディープシーク V4 プロマックス)の44点を上回った。プロプライエタリモデルが優位なベンチマークにおいて、自由利用可能なウェイトを持つ同モデルの成果が注目される。

Zhipu AIの「GLM-5.2」は、合計744Bのパラメータを持ち、推論コールごとに40Bのアクティブパラメータを使用するアーキテクチャを採用している。前モデルの「GLM-5.1」と同等のフットプリントを維持しながら、コンテキストウィンドウは200Kトークンから1Mトークンに大幅に拡張された。

「GLM-5.2」の能力向上は、特に科学的推論に重点を置いている。「CritPt(クリットプト)」は16ポイント上昇して21%に達し、Humanity’s Last Exam(ヒューマニティーズ・ラスト・イクザム)は12ポイント上昇して40%を記録、「SciCode(サイコード)」は7ポイント上昇して50%を記録した。「GDPval-AA v2」では1524に達し、これはプロプライエタリモデルである「GPT-5.5」が記録した1514とcomparable territoryとされている。また、AA-Omniscience index(AA-オムニサイエンス・インデックス)では精度が25.1%に向上し、ハルシネーション(誤情報生成)は28.1%に減少した。

一方で、「GLM-5.2」はトークン効率において課題を抱えている。Artificial Analysisによると、Intelligence Indexのタスクごとに43kの出力トークンを使用し、そのうち37kが推論に費やされる。これにより、100万入力トークンあたり1.4ドル、100万出力トークンあたり4.4ドルの価格で、大量のモデルを実行するチームにとっては推論コストが急速に拡大する可能性がある。しかし、MITライセンスで提供され、DeepInfra(ディープインフラ)やFireworks(ファイヤーワークス)といったプロバイダーで利用可能なため、フロンティアクラスの科学的推論能力を必要とし、コストを許容できる開発者にとっては利用への障壁が取り除かれた形となる。

「GLM-5.2」がオープンウェイトモデルのトップに立つことは、「Llama」や「Mistral」、「Qwen」といった既存の有力なオープンLLM群に対する新たな競争圧力を意味する。特に「GDPval-AA v2」におけるプロプライエタリモデル「GPT-5.5」との性能差が縮小している点は、AI開発におけるオープンソースとプロプライエタリ間の境界線が曖昧になる可能性を示している。


参考: aiweekly.co — 2026年6月17日 09:00 (JST)

原文ハイライト

"comparable territory"

この記事をシェア
X はてブ LinkedIn