言語モデル、目標達成確信度を内部追跡か Qwen3-8Bで「価値軸」特定

arXiv cs.CLは6月15日(現地時間)、研究論文を公開し、言語モデルが目標達成への現在の戦略の可能性として定義される「価値」を内部的に追跡している可能性があると指摘しました。Nick Jiang氏、Isaac Kauvar氏、Jack Lindsey氏らの研究チームは、Qwen3-8Bモデルにおいて、モデルの行動の「価値」を示す軸を構築。この軸の活性化が、モデルが表明する自信の程度、思考の経路（後戻りの有無）、および生成されるコードの正確性といった複数の要素を区別することを示しました。

この研究では、言語モデルがその内部状態を通じて、特定の目標を達成するための現在の戦略がどれほど有効であるかを評価する「価値軸」を持っている可能性を探りました。研究チームは、合成されたインコンテキスト強化学習データを用いてQwen3-8Bモデルの「価値軸」を詳細に構築しました。この軸に沿った活性化の度合いは、モデルが発言する自信の高さと低さ、後戻りのないロールアウトと後戻りを含むロールアウト、さらには正しいコードと破損したコードといった、モデルの振る舞いの異なる側面を明確に区別することが確認されています。

具体的には、高い価値を持つ方向へモデルを誘導すると、モデルの自己修正行動が抑制され、生成される説明の冗長性が減少する傾向が見られました。これは、モデルが自身の現在の戦略に強い確信を持っている場合に、より直接的かつ効率的な出力を生み出すことを示唆しています。一方、モデルを低い価値を持つ方向へ誘導すると、後戻りや新たな探索行動が誘発される結果となりました。これは、モデルが現在の戦略に不確実性を感じている場合に、より慎重なアプローチや多様な試行錯誤を行う可能性を示しています。

さらに、研究ではダイレクト・プリファレンス・最適化（DPO）が、言語モデルの内部的な価値判断に与える影響も検証されました。DPOのような報酬ベースの学習手法を用いることで、特定の単語の使用といった報酬を与えられた行動の内部価値を高められることが実証されました。これにより、モデルはそうした行動を示した後に、より自信を持って振る舞うようになることが確認されています。この発見は、人間のフィードバックや特定の目標に基づいてモデルを調整する際の、内部的なメカニズムの一端を解明するものと見られます。

この価値軸の有効性は、理論的な検証だけでなく、実世界の環境でも確認されました。研究チームは、Qwen3-8Bがポストトレーニング後に、政治的に機密性の高いチャットクエリに対して低い価値を割り当てる傾向があることを発見しました。これは、モデルが特定の倫理的または安全上の制約を内部的な価値判断として学習している可能性を示唆しています。また、教師ありファインチューニングによって、トレーニングドメイン内でのモデルの内部的な自信が高まることも観察されました。

これらの結果は総合的に、言語モデルが期待される目標達成の推定値を線形に符号化し、その方向性を追求する際のモデルの自信を調整する内部メカニズムを持っていることを示唆しています。この「価値軸」の発見は、言語モデルの内部動作をより深く理解し、その信頼性や制御性を向上させるための新たな知見を提供するものと考えられます。

参考: arXiv cs.CL — 2026年6月16日 02:59 (JST)