Epoch AIは2026年2月16日(現地時間)、研究者ジャン=スタニスラス・ドゥナン氏の見解として、AIモデルの推論コストが特定の能力レベルにおいて急速に低下していると発表した。ドゥナン氏は、トビー・オード氏が以前示した「強化学習(RL)スケーリングによる推論コスト増大リスク」が、一部で過大評価されている可能性を指摘している。同氏によると、特定の能力に到達するまでの推論コストは年間で約5~10倍の速さで削減される傾向にあり、その負担は持続的ではないとの見方を示した。
ドゥナン氏の分析によれば、AIモデルが特定の能力レベルに到達するために必要な推論コストは、時間とともに急速に低下しており、その負担は持続的ではない傾向にあるという。同氏の分析は、特定の能力レベルに達するまでのコストは、年間でおおよそ5~10倍の速さで削減される傾向があることを示唆している。
この顕著なコスト削減は、複数の要因によって推進されているとされる。主な要因の一つは、モデルの蒸留(distillation)技術の進化だ。これにより、より小規模なモデルでも初期の大規模モデルと同等の能力に到達できるようになった。また、speculative decodingやpaged attentionといった推論効率を向上させるアルゴリズムの継続的な改善も大きく寄与している。さらに、AnthropicのClaude Sonnet 3.7からClaude Sonnet 4への進化に見られるように、モデルが同じ能力レベルに到達するために必要なフォワードパスの回数が減少していること、およびGPU(Graphics Processing Unit)の世代ごとのコスト削減も、これらの要因として挙げられている。
ドゥナン氏は、オード氏が提示したRLスケーリングの効率に関するデータについても疑問を呈している。オード氏は、OpenAIのo1 announcement chartを基に、100倍の推論が提供する性能を得るには10,000倍のRL計算が必要であると推定していた。これに対しドゥナン氏は、RLスケーリングのデータは薄く、o1およびo3以降、RL計算効率において実質的な進歩があった可能性が高いと指摘している。アルゴリズムの進歩がRLスケーリング曲線を大幅に改善する可能性があるとドゥナン氏は見解を述べている。
ドゥナン氏のこの分析は、AIシステムの構築や運用戦略を立案する実務者にとって重要な示唆を与える可能性が指摘されている。推論コストが年間で大幅に削減される傾向にあるという同氏の見解は、長期的なインフラ投資のタイミングや、AIモデルの「構築(build)」と「購入(buy)」の判断に影響を及ぼす可能性がある。特に、特定のAI能力を追求する際のコスト効果が時間の経過とともに改善する可能性があるため、短期間での高額な投資よりも、技術進化を見越した段階的なアプローチが有効となるケースも考慮される。
原文ハイライト"How persistent is the inference cost burden?"