Appleは2026年7月(現地時間)、強化学習 (RL) ファインチューニングを用いたビジョン言語モデル (VLMs) の堅牢性とChain-of-Thought (CoT) の一貫性に関する研究論文を発表した。同研究は、RLファインチューニングが推論集約型タスクにおける大規模言語モデル (LLMs) の強化に重要である一方、視覚的根拠の弱さやテキスト情報への過度な依存といった脆弱性が残ることを示唆している。特に、誤解を招くキャプションや不正確なChain-of-Thoughtトレースが、堅牢性と信頼性を著しく低下させると指摘した。
同研究は、強化学習 (RL) でファインチューニングされたビジョン言語モデル (VLMs) が視覚的推論ベンチマークで向上するものの、弱い視覚的グラウンディング、幻覚、テキストキューへの過度な依存という脆弱性を依然として抱えていることを指摘した。単純で制御されたテキスト摂動、具体的には誤解を招くキャプションや不正確なChain-of-Thought (CoT) トレースが、堅牢性と信頼性の著しい低下を引き起こす。この影響は、オープンソースのマルチモーダル推論モデルにおいてChain-of-Thoughtの一貫性を考慮すると、より顕著であると報告されている。
対照的に、クローズドモデルは同様の失敗モードを示すものの、著しく高い堅牢性と推論の一貫性を維持する。これは、このギャップがタスク本来の制限ではなく、現在のオープンソースRLファインチューニングにおける欠点によるものである可能性を示唆している。
研究チームはRLファインチューニングの動態をさらに分析し、精度と忠実性 (accuracy–faithfulness) のトレードオフを発見した。ファインチューニングはベンチマーク精度を向上させる一方で、付随するChain-of-Thoughtの信頼性とその文脈変化への堅牢性を同時に侵食する可能性がある。敵対的データ拡張は堅牢性を改善するが、それだけでは忠実性のドリフトを防ぐことはできない。忠実性を考慮した報酬を組み込むことで、回答と推論のアラインメントを回復できるものの、拡張と組み合わせた場合、訓練が近道戦略に陥り、堅牢性が依然として得られないリスクも指摘されている。
これらの発見は、精度のみの評価の限界を強調し、正しさ、堅牢性、視覚的根拠に基づく推論の忠実性を共同で重視する訓練および評価プロトコルが必要であることを提唱している。
参考: Apple ML Research (アーカイブ) — 2026年7月2日 09:00 (JST)