マウス・視線からLLMの好み検出費用対効果高いアライメント新手法

arXiv cs.CLは2026年6月18日(現地時間)、論文を公開した。Haw-Shiuan Chang氏ら研究グループは、大規模言語モデル (LLM) のアライメントにおいて、ユーザーの暗黙的なフィードバックが有効であることを明らかにした。既存手法の課題である明示的フィードバック収集の高コストを克服するため、研究グループはマウス軌跡や視線データを含む新たなデータセット「IFLLM」を構築。このデータに基づいた報酬モデルが、テキストベースの報酬モデルの精度を55%から64%に向上させ、Direct Preference Optimization (DPO) を8つのLLMに適用した場合の応答品質改善を約3倍に高めたと報告している。

大規模言語モデル (LLM) のアライメントには、従来から二つの主要な課題が存在した。一つは、ユーザーからの明示的なフィードバック収集が高コストである点。もう一つは、インターネット大手企業の経済的優位性に不可欠とされてきた、ユーザーの無意識的な行動から得られる暗黙的な人間からのフィードバックが十分に活用されていない点である。Haw-Shiuan Chang氏、Jeffrey Gomez氏、Mehul Patwari氏、Aryan Sajith氏、Hamed Zamani氏の研究グループは、この暗黙的フィードバックの価値を定量的に評価し、その有効性を示すため、新たなデータセット「IFLLM」を構築した。

IFLLMデータセットは、クラウドソーシングプラットフォームであるメカニカル・ターク (Mechanical Turk) を通じて集められた59人の作業員から収集された、1,336件の多段階質問に対するデータで構成されている。このデータには、大規模言語モデル (LLM) の応答に対する作業員のマウスの軌跡や、ウェブカメラから取得された視線データが含まれる。詳細な分析の結果、IFLLMはユーザーがLLMの応答を評価する際に、非常に多様な視線行動とマウスの軌跡を示すことを明らかにした。

研究グループが開発した、このような暗黙的なユーザーフィードバックに基づく報酬モデルは、既存のテキストベースの報酬モデルと比較して、その精度を55%から64%へと有意に向上させることを実証した。さらに、アライメント手法の一つであるDirect Preference Optimization (DPO) を8つの異なる大規模言語モデル (LLM) に適用した実験では、暗黙的フィードバックを活用することで、応答品質の相対的な改善が約3倍に達したと説明されている。この成果は、実環境におけるユーザーの無意識的な行動から得られる暗黙的フィードバックが、LLMのアライメント効果を大幅に高める可能性を示唆するものと見られる。研究で用いられたデータ収集用ウェブサイト、構築されたデータセット、および関連コードは一般に公開されている。

参考: arXiv cs.CL — 2026年6月19日 02:00 (JST)