Apple ML Research、大規模言語モデル向け新手法「Ctrl-R」を発表
Apple ML Researchは2026年7月(現地時間)、大規模言語モデル(LLM)における複雑な推論パターンの学習を促す新たなフレームワーク「Ctrl-R」を発表した。標準的な強化学習(RL)が抱える、多様な推論行動の獲得が困難であるという課題に対し、本手法は構造化推論を通じて特定の推論パターンを系統的に発見・強化する。Ctrl-Rはロールアウトプロセスを能動的にガイドし、複雑な問題解決に不可欠な多様な推論パターンを効率的に探索することを奨励する。