Apple ML Researchは2026年7月(現地時間)、大規模言語モデル(LLM)における複雑な推論パターンの学習を促す新たなフレームワーク「Ctrl-R」を発表した。標準的な強化学習(RL)が抱える、多様な推論行動の獲得が困難であるという課題に対し、本手法は構造化推論を通じて特定の推論パターンを系統的に発見・強化する。Ctrl-Rはロールアウトプロセスを能動的にガイドし、複雑な問題解決に不可欠な多様な推論パターンを効率的に探索することを奨励する。

Ctrl-Rは、その中核において、学習プロセスにおけるトラジェクトリー制御を通じて構造化推論を実現する。この制御機構により、行動ポリシーは正確な重点サンプリング推定を実行できるようになり、不偏なオンポリシー最適化を効果的にサポートする。研究者らは、重点サンプリングの重みにパワースケーリング係数を導入することで、このフレームワークの安定性と柔軟性を高めた。これにより、ポリシーは探索的かつ分布外のトラジェクトリーから選択的に学習しながら、同時に最適化プロセスの安定性を維持することが可能になる。

本研究では、Ctrl-Rを適用した大規模言語モデルやビジョン・言語モデルが、数学的推論タスクにおいて一貫したパフォーマンスの改善を示すことが実験的に実証された。この成果は、特にこれまで達成が困難であった複雑な推論パターンの効果的な探索とその内部化を可能にするCtrl-Rの能力に起因する。具体的には、従来の強化学習アプローチではランダムな探索に頼りがちで、特定の構造化された推論ステップを見つけ出すのが困難だったのに対し、Ctrl-Rはより目的意識的に関連する推論パスを探索し、学習データとして活用する。

Ctrl-Rが提供するトラジェクトリー制御と重点サンプリングの組み合わせは、学習プロセスを効率化し、より洗練された推論能力をモデルに付与するための新たな道筋を示すものである。これにより、複雑な問題に対するモデルの汎化能力と頑健性が向上し、より広範な応用分野での活用が期待される。特に、推論ステップの解釈可能性を向上させる可能性も秘めており、モデルの「思考プロセス」をより深く理解することにも貢献する。

本研究には、Po-Nien Kung氏、Zhen Yang氏、Jeffrey Luo氏、Cheng-Fu Yang氏、Haikang Deng氏、Zi-Yi Dou氏、Yinfei Yang氏、Nanyun Peng氏、Zhe Gan氏、Kai-Wei Chang氏が著者として名を連ねている。そのうち、Zi-Yi Dou氏とYinfei Yang氏の二名は、本研究にApple在籍中に携わった。


参考: Apple ML Research (アーカイブ) — 2026年7月2日 09:00 (JST)

原文ハイライト

"a framework for learning structured reasoning via tractable trajectory control"

この記事をシェア
X はてブ LinkedIn