#DPO 関連記事 | AI Edgeline

BPEトークン化がLLM安全性に隙間、回避策の課題浮き彫り

arXivは5月1日(現地時間)、大規模言語モデル（LLMs）の安全性アライメントにおける新たな脆弱性を指摘する論文を発表した。この研究は、BPEトークン化（Byte-Pair Encoding tokenization）が安全上重要な単語をサブワードに分割することで、文字レベルの摂動がLLMsの安全機能を回避するメカニズムを特定。その回避策の現状と課題について詳細な分析結果を報告している。

リサーチ・論文 6月24日 20:17 注目

オフライン推論学習の重み空間幾何学を分析、DPOが最高精度を達成

arXiv cs.LGは6月21日(現地時間)、大規模な教師モデルから小規模な学生モデルへ推論を蒸留する複数のオフライン強化学習損失関数に関する研究論文を発表した。本研究は、報酬重み付けファインチューニング (RFT)、報酬包含ファインチューニング (RIFT)、直接ファインチューニング (DFT)、オフライン汎用ポリシー最適化 (Offline GRPO)、直接選好最適化 (DPO) などの手法が、メカニズム的に異なるのか、または同様の重み更新に収束するのかを検証した。各手法の重み更新挙動と精度への影響を分析し、特にDPOが最高の精度を示す結果となった。

リサーチ・論文 6月22日 21:13

マウス・視線からLLMの好み検出費用対効果高いアライメント新手法

arXiv cs.CLは2026年6月18日(現地時間)、論文を公開した。Haw-Shiuan Chang氏ら研究グループは、大規模言語モデル (LLM) のアライメントにおいて、ユーザーの暗黙的なフィードバックが有効であることを明らかにした。既存手法の課題である明示的フィードバック収集の高コストを克服するため、研究グループはマウス軌跡や視線データを含む新たなデータセット「IFLLM」を構築。このデータに基づいた報酬モデルが、テキストベースの報酬モデルの精度を55%から64%に向上させ、Direct Preference Optimization (DPO) を8つのLLMに適用した場合の応答品質改善を約3倍に高めたと報告している。

リサーチ・論文 6月17日 08:24 注目

言語モデル、目標達成確信度を内部追跡か Qwen3-8Bで「価値軸」特定

arXiv cs.CLは6月15日(現地時間)、研究論文を公開し、言語モデルが目標達成への現在の戦略の可能性として定義される「価値」を内部的に追跡している可能性があると指摘しました。Nick Jiang氏、Isaac Kauvar氏、Jack Lindsey氏らの研究チームは、Qwen3-8Bモデルにおいて、モデルの行動の「価値」を示す軸を構築。この軸の活性化が、モデルが表明する自信の程度、思考の経路（後戻りの有無）、および生成されるコードの正確性といった複数の要素を区別することを示しました。

#DPO

BPEトークン化がLLM安全性に隙間、回避策の課題浮き彫り

オフライン推論学習の重み空間幾何学を分析、DPOが最高精度を達成

マウス・視線からLLMの好み検出 費用対効果高いアライメント新手法

言語モデル、目標達成確信度を内部追跡か Qwen3-8Bで「価値軸」特定

マウス・視線からLLMの好み検出費用対効果高いアライメント新手法