科学論文リポジトリのarXivは6月11日(現地時間)、Zilin Xiao氏らの研究チームが、言語モデルに類推による推論能力を付与する新しい学習フレームワーク「Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT)」を提案したと発表した。この手法は、従来のRetrieval-augmented generation (RAG) が持つ課題を克服し、文脈の類似性ではなく推論への寄与度に基づいて情報を選択することで、複雑な推論タスクにおける言語モデルの性能向上を目指す。
従来のRetrieval-augmented generation (RAG) は、外部知識と言語モデルを結びつける標準的なメカニズムとして確立されていました。しかし、語彙的または意味的な類似性に基づく従来の検索方法は、複雑な推論タスクには不向きであると指摘されています。これは、意味的に類似した問題でもまったく異なる解決戦略が必要となる場合や、表面上は異なる問題でも同じ根本的な推論パターンを共有する場合があるためです。
RA-RFTは、学習後のフレームワークとして、gold-relevance distillationを用いてレトリバー(情報検索器)を訓練します。このレトリバーは、意味的な重なりではなく、期待される推論上の利点に基づいて文脈をランク付けします。その後、強化学習のファインチューニング手法を通じて方策モデルを調整し、モデルが検証可能な結果報酬の下で推論トレースを活用できるようにします。
研究チームは、検索された文脈の多様性を分析し、推論を意識した検索が、個々の問題に対して異なる推論の足場を提供する補完的な解決戦略を表面化することを発見しました。数学的推論のベンチマークにおいて、RA-RFTは標準的な強化学習ファインチューニング手法を一貫して上回る性能を示しています。例えば、AIME 2025 average@32 accuracyにおいて、Qwen3-1.7BではGRPO比で7.1ポイント、Qwen3-4Bでは2.8ポイントの向上を達成しました。
参考: arXiv cs.CL — 2026年6月12日 02:59 (JST)
原文ハイライト"Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning"