SLMの出力制約「Constraint Tax」指摘、精度と妥当性のトレードオフを浮上

Jaideep Ray氏は2026年5月20日(現地時間)、論文「The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models」を発表し、小型言語モデル (SLM) に見られる「constraint tax (制約税)」現象を提唱した。構造化出力が求められるSLMにおいて、厳格な出力制約を課すと、スキーマ妥当性は高まる一方で回答精度が大幅に低下することを指摘。この課題がプロダクション環境でのSLM導入において重要性を持つとした。

プロダクション環境のLLMシステムでは、機械可読な出力形式がますます必要とされている。具体的には、JSONオブジェクト、型付きトレース、正規表現で制約されたフィールド、ツールコールスキーマなどが挙げられる。この論文は、プライバシー、レイテンシ、汎用ハードウェアの観点から魅力的な30億パラメータ未満の小型言語モデル (SLM) の導入に焦点を当てている。これらのモデルは、タスクを解決しながらスキーマ要件を満たす能力が限られているとされる。

通常の工学的仮定では、厳格な出力制約は基礎となる回答を変えることなく信頼性を向上させると考えられてきた。しかし、同論文はこの仮定が小型モデルには安全ではないことを示している。研究では、「constraint tax」と呼ばれる測定プロトコルを導入し、構造化出力制約によって生じる回答および実行可能精度の損失を、固定されたモデル、タスク分布、問題インスタンスで分離して測定した。

Qwen2.5-0.5B、Qwen2.5-1.5B、SmolLM2-1.7Bモデルを用いた15,000回の汎用GPU生成実験において、厳格なanswer-only schema decodingを適用すると、スキーマの妥当性は61.5%から100.0%に向上した。しかし、同時に回答精度は19.7%から11.0%に低下し、wrong-valid-schema outputsは49.5%から88.9%に増加した。

業界での類似例として、決定論的なカレンダーツールコールタスクでは、Qwen2.5-1.5BがプロンプトのみのJSONで91.5%の実行可能精度を達成したのに対し、同じ厳格なツールコールスキーマ下では48.0%に低下した。両モードともスキーマ妥当性は100.0%だったが、エラーは構造的なものではなく意味的なものであったことが判明した。また、30億パラメータの境界でもdirect-schema taxが発生し、reason free, constrain late (自由に推論し、制約は後で適用する)という建設的な設計パターンが有効であることも示されている。

実用的な結論として、プロダクションシステムではスキーマ妥当性、回答精度、実行可能精度、そしてwrong-valid-schema rateを個別に報告すべきであると提言されている。

参考: arXiv cs.LG — 2026年5月27日 13:00 (JST)