GLM-5.2、ベンチマークで高い性能を発揮、新たなオープンモデルとして注目

GLM-5.2は6月22日(現地時間)、Don't Worry About the Vase (Zvi)が報じたところによると、その登場以来、優れたベンチマークスコアを示し、最も強力なオープンモデルの可能性があると指摘されている。GLM-5.1からの大幅な進歩を遂げたものの、最先端のフロンティアモデルには及ばない側面がある。しかし、そのコストパフォーマンスはパレートフロンティア上に位置すると評価されている。

GLM-5.2は、フロンティアモデルより4ヶ月から7ヶ月程度の遅れがあると評価されているが、より低い価格で提供される。実用面では、オープン性を重視しない限り、市場での明確なニッチを見つけるのが困難であるとの見方もある。これは、大量の一般的なタスクには安価な代替モデルが存在し、高度なタスクにはより強力なモデルが求められるためである。

複数のベンチマークにおいてGLM-5.2は高い評価を得ている。Artificial Analysis v4.1では51点を獲得し、Fable、Opus 4.8、GPT-5.5、Opus 4.7に次ぐ性能を示し、GPT-5.4と並んだ。スピードインデックスは95点で、GLM-5.1と同等である。LiveBenchではOpus 4.5とOpus 4.6の間に位置した。Vals.aiではオープンモデルの中で最も優れていると評価されたものの、Fable、Opus 4.8、Opus 4.7、GPT-5.5には及ばず全体では5位に位置している。Jake Boggs Capability indexではSonnet 4.6と同等のスコアを記録し、PosttrainBenchではOpus 4.8を僅かに上回る1位を獲得した。

GLM-5.2はClaudeから蒸留された可能性が高いとされている。これは、モデルが自身を頻繁にClaudeと認識し、独特の「Claudeの声」を使用することから示唆されている。蒸留モデルはベンチマークや一般的なタスクにおいて過剰な性能を発揮する一方で、一般的ではないタスクでは性能が劣る傾向があり、汎化性能が低い可能性があると指摘されている。

参考: Don’t Worry About the Vase (Zvi) — 2026年6月22日 21:45 (JST)