マウス・視線からLLMの好み検出 費用対効果高いアライメント新手法
arXiv cs.CLは2026年6月18日(現地時間)、論文を公開した。Haw-Shiuan Chang氏ら研究グループは、大規模言語モデル (LLM) のアライメントにおいて、ユーザーの暗黙的なフィードバックが有効であることを明らかにした。既存手法の課題である明示的フィードバック収集の高コストを克服するため、研究グループはマウス軌跡や視線データを含む新たなデータセット「IFLLM」を構築。このデータに基づいた報酬モデルが、テキストベースの報酬モデルの精度を55%から64%に向上させ、Direct Preference Optimization (DPO) を8つのLLMに適用した場合の応答品質改善を約3倍に高めたと報告している。