言語モデル、目標達成確信度を内部追跡か Qwen3-8Bで「価値軸」特定
arXiv cs.CLは6月15日(現地時間)、研究論文を公開し、言語モデルが目標達成への現在の戦略の可能性として定義される「価値」を内部的に追跡している可能性があると指摘しました。Nick Jiang氏、Isaac Kauvar氏、Jack Lindsey氏らの研究チームは、Qwen3-8Bモデルにおいて、モデルの行動の「価値」を示す軸を構築。この軸の活性化が、モデルが表明する自信の程度、思考の経路(後戻りの有無)、および生成されるコードの正確性といった複数の要素を区別することを示しました。