オープンモデルの進化とCAISI評価の課題：実務的示唆とモデル選定の重要性

テック系情報媒体Interconnects（インターコネクツ）は2026年5月16日(現地時間)、人工知能（AI）のオープンモデルに関する最新動向と、Center for AI Standards and Innovation (CAISI)による評価報告を報じた。CAISIのV4評価は、オープンモデルがAmerican frontierに遅れをとり、その差がさらに拡大していると指摘している。多数の新モデルが市場に投入される中、評価手法が抱える課題と、企業が実務でモデルを選定する際の重要性が改めて浮き彫りとなっている。

Center for AI Standards and Innovation (CAISI)は評価報告書において、項目反応理論（IRT）に基づきEloスコアを算出している。この手法は、異なるベンチマークでテストされたモデル間を比較する際に用いられる。V4評価では9種類のベンチマークが使用され、DeepSeek（ディープシーク）V4が特定のベンチマーク（CTF-Archive-Diamond、PortBench、ARC-AGI-2）で低いスコアを記録したことが、全体のEloスコアに大きな差をもたらしたと指摘されている。

Interconnects（インターコネクツ）は、CAISIとEpoch AI（エポックAI）の評価手法には不完全な点があると指摘する。両者ともにモデル能力比較に際して標準化された、かつ単純な設定を使用しているためだ。例えば、コーディングタスクでは固定予算のトークンとbashアクセスを使用するが、これはClaude CodeやOpenCodeのような本格的なハーネス（モデルの能力を最大限に引き出すためのテスト環境）を使用しない。そのため、モデルの真の能力を引き出しきれていない可能性があるとInterconnectsは主張。すべてのモデルの能力をより良く引き出すためには、推奨されるハーネスとモデル固有のプロンプトの使用が必要だと提起している。

個別のオープンモデルリリースでは、Xiaomi（シャオミ）がApache 2.0ライセンスでMiMo-V2.5-Proを発表し、他の主要モデルと肩を並べる性能を見せている。Google（グーグル）はgemma-4-26B-A4B-itを始めとする複数のサイズのモデルを発表し、こちらもApache 2.0ライセンスを採用したことで、利用に関する不確実性を解消した。Moonshot AI（ムーンショットAI）のKimi-K2.6は全体的な性能を向上させ、長時間のタスク実行能力に焦点を当てている。Poolside AI（プールサイドAI）は初の公開コーディング特化モデルLaguna-XS.2をリリース。DeepSeek AI（ディープシークAI）のDeepSeek-V4-FlashはV3シリーズの後継として、ProとFlashの2サイズで提供され、Flashモデルは長コンテキスト性能で注目されている。

その他にも、Qwen（クエン）のQwen3.6-35B-A3B、LiquidAI（リキッドAI）のLFM2.5-350M、Arcee AI（アーシーAI）のTrinity-Large-Thinking、Zai-org（ザイオーグ）のGLM-5.1などが登場し、それぞれ特定の能力や用途に特化している。

多様なオープンモデルが継続的にリリースされる中、実務担当者にとっての課題は、単一のベンチマークスコアに囚われず、自社の具体的な要件に合致するモデルを選定することにある。例えば、長時間のタスク処理を重視するならばKimi K2.6やGLM-5.1が、コーディング特化であればLaguna-XS.2が選択肢となる。ライセンス形態も重要な判断要素であり、Apache 2.0のような商用利用しやすいライセンスは導入ハードルを下げる。評価手法の不完全性も踏まえ、モデル選定においては社内での実タスクでの検証（ハーネス構築を含む）が不可欠だ。これにより、ベンチマーク上の数値だけでは見えない、実環境での真の性能と適性を評価し、開発・調達戦略を最適化することが求められている。

参考: Interconnects (Nathan Lambert) (アーカイブ) — 2026年5月17日 02:00 (JST)