LLMカスケード最適化、UCCIで推論コスト31%削減 新手法が効率性と精度両立
arXiv cs.LGは2026年5月11日(現地時間)、「UCCI」と名付けられた大規模言語モデル(LLM)カスケードルーティングの新手法を発表しました。この手法は、推論コストを最適化することを目的としています。UCCIは、トークンレベルのマージン不確実性をクエリごとのエラー確率にマッピングし、制約付きコスト最小化を通じてエスカレーションしきい値を選択する、キャリブレーション優先のルーターです。既存のルーターが持つ、未調整の信頼度スコアを使用し、ワークロードごとのしきい値調整を必要とする課題に対処します。