LLMカスケード最適化、UCCIで推論コスト31%削減新手法が効率性と精度両立

arXiv cs.LGは2026年5月11日(現地時間)、「UCCI」と名付けられた大規模言語モデル（LLM）カスケードルーティングの新手法を発表しました。この手法は、推論コストを最適化することを目的としています。UCCIは、トークンレベルのマージン不確実性をクエリごとのエラー確率にマッピングし、制約付きコスト最小化を通じてエスカレーションしきい値を選択する、キャリブレーション優先のルーターです。既存のルーターが持つ、未調整の信頼度スコアを使用し、ワークロードごとのしきい値調整を必要とする課題に対処します。

LLMカスケードルーティングは、比較的簡単なクエリを小型のモデルで処理し、より複雑なクエリを高性能な大型モデルにエスカレートさせることで、推論にかかるコストを大幅に削減できる可能性を秘めています。しかし、現在広く利用されている多くのルーターは、調整されていない信頼度スコアに依存しており、各ワークロードに合わせて手動でしきい値を調整するという課題を抱えていました。

Varun Kotte氏らが執筆した論文では、この課題に対し、UCCIがcalibration-first routerとして提案されています。UCCIは、トークンレベルのマージン不確実性を単調回帰（isotonic regression）を介してクエリごとのエラー確率に高精度でマッピングします。このキャリブレーションされた確率に基づき、制約付きコスト最小化の手法を用いて、最適なエスカレーションしきい値を自動的に選択します。

論文では、3つの明示的な仮定の下で、この調整されたスコアに基づくしきい値ポリシーがコスト最適であることが数学的に示されています。さらに、単調キャリブレーションは、期待キャリブレーションエラー（ECE）に対してO(n^-0.3333333333333333)のサンプル複雑度を達成することが証明されており、効率的な学習と高精度な調整を可能にします。

UCCIの性能は、75,000クエリを含む実稼働環境の固有表現認識（named entity recognition）ワークロードで厳密に評価されました。この評価では、4Bおよび12Bのinstruction-tuned LLMがNVIDIA H100 GPU上で活用されました。その結果、UCCIは、micro-F1スコアを0.91と高い精度を維持しながら、推論コストを31%（95%信頼区間: [27%, 35%]）削減するという顕著な成果を示しました。同時に、ECEも0.12から0.03へと大幅に低減され、モデルの信頼性も向上しました。

同一の運用ポイントにおける比較テストでは、UCCIはエントロピーしきい値処理、分割適合ルーティング、およびFrugalGPTスタイルの学習済みしきい値といった既存の主要な手法を上回る性能を発揮しました。これらのカスケード結果は、実際のモデル出力とH100 GPU上での測定レイテンシに基づいたエンドツーエンドルーティングを用いることで得られており、グローバルな精度や公称API価格からのシミュレーションルーティングとは一線を画しています。

参考: arXiv cs.LG — 2026年5月20日 13:00 (JST)