コードLLM向けスパース監視フレームワーク「CODEBLOCK」提案

arXiv cs.LGは2026年6月9日(現地時間)、コード大規模言語モデル (LLM) の教師ありファインチューニング (SFT) における効率性課題を解決する、新たなスパース監視フレームワーク「コードブロック (CODEBLOCK)」に関する論文を公開した。従来の全トークンに対する一様な損失適用が非効率であるという問題に対し、CODEBLOCKは構造的に完全なコード要素のみを選択的に監視することで、少ない学習シグナルで効率的な性能向上を達成したと報告されている。

従来のコードLLMの教師ありファインチューニングでは、通常、全ての応答トークンに一様な交差エントロピー損失が適用されていた。これは、全てのトークンが同等に有用な学習シグナルを提供すると暗黙的に仮定していたためだ。自然言語SFTにおけるトークンレベル選択手法は、高価値トークンのみを監視するものの、コードに直接適用すると、構文的・意味的に一貫したプログラム単位を破壊する可能性があった。これは、コードが構造的完全性と定義-使用関係に強く依存するためである。

この課題に対し、Zhijie Deng (Zhijie Deng) 氏らが提案したCODEBLOCKは、孤立したトークンではなく、構造的に完全なコードエビデンスを選択する、構造認識型スパース監視フレームワークである。まず、高品質な命令-応答ペアを選択し、コード応答を構文的に一貫したコーディングアイテムに分割する。次に、コアロジックトークン全体の汎化された交差エントロピーを集約することでその有用性を推定し、さらにデータフローリーチとブリッジシグナルを用いて再ランク付けを行う。これにより、重要なプログラム依存関係を伝播または接続するブロックを優先的に選択する。訓練中、完全な応答はコンテキストとして利用可能だが、損失は選択されたコードアイテムと情報豊富な自然言語トークンにのみ適用される。

6つのコード生成ベンチマークにおける実験では、CODEBLOCKは全トークンSFTや競合する選択ベースラインと比較して、より強力な平均「pass@1」を達成した。この性能は、教師あり応答トークンのわずか1.9%を使用するだけで得られたものであると、論文は結論付けている。

参考: arXiv cs.LG (アーカイブ) — 2026年6月18日 13:00 (JST)