arXiv cs.AIは2026年5月12日(現地時間)、ビジョン言語モデル (Vision-Language Models、VLM) の解釈可能な失敗モードを体系的に特定する新フレームワーク「レベリオ (REVELIO)」が発表されたと報じた。VLMは高い推論能力と汎化性から、安全性が重視される応用分野での利用が拡大している。しかし、特定の現実世界状況下で壊滅的な失敗を招く可能性が課題となっていた。レベリオは、従来の評価手法との差別化を図り、VLMの安全性向上に大きく寄与すると期待される。
新フレームワーク「レベリオ (REVELIO)」は、従来のビジョン言語モデル (VLM) 評価手法が抱える課題に対処するために開発された。従来の評価手法は、特定の入力に対するVLMの失敗を単発的に特定するにとどまっていた。そのため、その失敗がどのような環境要因やドメイン関連の概念の組み合わせによって引き起こされるのか、本質的な原因を解釈することが困難だった。これにより、発見された脆弱性の根本原因を特定し、体系的な改善策を講じる上での課題となっていた。
これに対しレベリオは、対象VLMが一貫して誤動作するような「歩行者の近接」や「悪天候条件」といった、解釈可能でドメイン関連の概念の組み合わせとして失敗モードを定義する。これにより、VLMがなぜ、どのような状況で、どのように失敗するのかを、構造化され、かつ人間が理解できる形で特定することが可能となる。
こうした複合的な失敗を特定するには、指数関数的に大きな離散組み合わせ空間を効率的に探索する必要がある。レベリオは、失敗状況を効率的にマッピングする「多様性認識ビーム探索」と、複雑な失敗モードの広範な探索を可能にするガウス過程トンプソンサンプリング戦略という、2つの探索手順を組み合わせることでこの課題に対応している。この効率的な探索メカニズムは、既存の評価手法が網羅性に限界があった点を克服し、より包括的な脆弱性の発見を可能にする。
このフレームワークは、Isha Chaudhary氏、Vedaant V Jain氏、Kavya Sachdeva氏、Sayan Ranu氏、Gagandeep Singh氏らの研究チームによって提案された。チームはレベリオを自動運転と屋内ロボティクスという2つの重要なドメインに適用し、その有効性を検証。その結果、これまで報告されていなかった最先端VLMの脆弱性を複数発見した。
具体的な検証結果として、自動運転環境では、VLMがしばしば弱い空間的基礎付けを示し、主要な障害物を考慮に入れない挙動を見せた。これにより、シミュレートされた衝突につながる可能性のある推奨事項が出される結果となった。これは、VLMが物体の存在を認識しても、その空間的な重要性や相互作用を正確に評価できていないことを示唆している。一方、屋内ロボティクス課題では、VLMが安全上の危険を見落とす、あるいは過度に保守的に振る舞い誤警報を発生させ運用効率を低下させるケースが確認された。これらの結果は、特定の環境要素とVLMの判断傾向との関連性を特定し、モデルの再訓練やロバストネス強化のための具体的な改善策を講じるための、重要な知見を提供する。
レベリオが提供する、構造化され解釈可能な失敗モードの特定能力は、VLMの安全性向上に向けた実用的な洞察を提示する。これは、VLMを製品開発やシステムインテグレーションに活用する機械学習エンジニアや研究者にとって、モデルの信頼性を客観的に評価し、具体的な改善ポイントを特定するための重要な指針となる。
参考: arXiv cs.AI — 2026年5月14日 13:00 (JST)
原文ハイライト"Revealing Interpretable Failure Modes of VLMs"