Atharva Naik氏らは2026年5月6日、LLMの推論プロセスをシンボリックソルバーへコンパイルする手法「ReaComp」を発表した。大規模な組み合わせ探索を要するプログラム合成タスクにおいてLLMが抱えるコストと信頼性の課題を克服する目的で開発されており、少数の推論トレースから再利用可能なシンボリックプログラムシンセサイザーを生成する。構築されたソルバーはテスト段階でLLMを呼び出さず、独立したシステムとして機能するとされる。

ReaCompは、コーディングエージェントが少数の推論トレースを用いて、制約付きドメイン固有言語(DSL)上で動作する再利用可能なシンボリックプログラムシンセサイザーを構築する手法だ。従来、大規模な組み合わせ探索が必要なプログラム合成タスクでは、LLMをインスタンスごとに逐次呼び出すアプローチが主流だったが、推論コストの高さや一貫性の欠如が課題となっていた。ReaCompは一度ソルバーを構築すれば以降の実行においてLLMへのアクセスが不要になる設計を採用しており、初期の構築コストを大量のゼロトークン実行で償却できる点が特徴とされる。コーディングエージェントをインスタンスごとに直接使用する場合と比べてパレート効率が大幅に高いと研究チームは指摘している。

ベンチマーク評価では、PBEBench-Liteで91.3%、PBEBench-Hardで84.7%の精度を達成した。特にPBEBench-Hardでは、テスト時スケーリングを適用したLLMと比べて16.3パーセンテージポイント上回る精度を記録しており、その際のLLM推論コストはゼロだったと報告されている。

ReaCompをLLM検索と組み合わせたハイブリッド構成では、PBEBench-Hardの精度を従来の68.4%から85.8%へ引き上げながら、トークン使用量を同時に78%削減することに成功した。ニューロシンボリックハイブリッド設定では、SLR-Benchのハード層における精度を34.4%から58.0%に改善している。

ReaCompから派生したソルバーの多くは、歴史言語学タスク、具体的には自然言語データの音変化予測の領域においてもゼロショット転移の可能性を示した。これらのソルバーはアンサンブルで80.1%の精度を達成し、もっともらしい言語規則を復元する能力があると見られる。

Atharva Naik氏、Yash Mathur氏、Prakam氏、Carolyn Rose氏、David Mortensen氏らは再現性確保のため、コードとデータを公開した。論文はarXiv(https://arxiv.org/abs/2605.05485)で参照できる。


参考: arXiv cs.CL (アーカイブ) — 2026年5月8日 13:00 (JST)

原文ハイライト

"Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis"

この記事をシェア
X はてブ LinkedIn