Zhipu (ジープー)は2026年6月13日(現地時間)、大規模言語モデル「GLM 5.2」を発表した。このモデルは7440億パラメータのmixture-of-experts (MoE) アーキテクチャを基盤とし、100万トークンのコンテキストウィンドウに対応する。同社は、従来の主要ベンチマークスコアを公開せず、実用環境での性能検証を重視する戦略を示している。
Zhipuが今回発表した「GLM 5.2」は、特にリポジトリ規模のエージェント的リファクタリングを目的とした、実用的な100万トークンコンテキストウィンドウを備えていると説明されている。このモデルは、GLM Coding Planの全ティアで提供が開始されており、既存モデルの能力を拡張する位置づけだ。
しかし、今回のフラッグシップモデルのリリースにおいて、同社はSWE-bench Verified、LiveCodeBench、HumanEvalといった主要なコード生成ベンチマークスコアを一切公開していない。これは大規模言語モデルの開発競争が激化する中で、競合他社がリーダーボード上の順位をアピールする現状とは一線を画す異例の対応といえる。
Zhipuによると、「GLM 5.2」のスタンドアロンAPI、同社のチャットボットZ.ai、およびMITライセンスに基づくオープンウェイト版は、6月16日の週に提供が開始される予定だ。同社は、単一のベンチマークスコアに依存するのではなく、コード生成に特化したモデルを有料ユーザーに提供することで、実際の使用環境における結果がモデルの価値を証明するという戦略を採用している。
このベンチマーク非公開戦略は、モデルの真価が特定の学術的なベンチマークスコアのみで測られることへの、開発者側の疑義の表れとも解釈できる。そうした中、Zhipuのこのアプローチは、AIモデル評価の新たな潮流を示唆している可能性がある。
特に、コード生成や複雑なエージェントワークフローといった実務的な応用が期待される分野では、ベンチマークスコアだけでは捉えきれない、実際の開発環境におけるモデルの挙動、エラー処理能力、プロンプトへの頑健性といった要素が重要となる。Zhipuの戦略は、これらの実用性を優先し、ユーザーが実際のタスクでモデルを評価する機会を重視することで、特定の分野の実務者にとってより価値のある指標を提供する狙いがあるとみられる。これは、AIモデルの進化に伴い、評価軸も多様化・実用化へとシフトしている業界全体の動向を反映しているものと考えられる。
参考: agent-wars.com (アーカイブ) — 2026年6月14日 09:00 (JST)