MCBench発表、Omni LLM向け多角的安全性評価ベンチマーク

arXiv cs.CLが2026年4月17日(現地時間)付けで報じた。Manh Luong氏らが論文「MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models」を発表し、視覚、音声、テキストを統合処理するOmni Large Language Models (LLMs) の安全性評価に特化した新たなベンチマーク「MCBench」を導入した。従来のマルチモーダル安全性ベンチマークが視覚入力に限定されていたのに対し、MCBenchは複数のモダリティの統合を必要とする1196の多様なシナリオと4つの安全カテゴリを網羅する。

Manh Luong氏と8名の著者らによって発表された「MCBench」は、単一モダリティに限定されがちだった従来の安全性評価手法に対し、包括的なアプローチを提案する。このベンチマークは、Omni LLMが多様な入力モダリティから得られる情報を統合し、複雑な状況下で適切な安全性判断を下せるかを評価するために設計された。特に、人間のコミュニケーションや現実世界の相互作用が複数の感覚モダリティを同時に含むことを踏まえ、MCBenchはテキスト、視覚、音声といった異なる情報源から生じる危険な状況をモデルがどれだけ正確に識別し、対処できるかに焦点を当てている。

MCBenchの設計は、モデルの感度を厳密に評価するために工夫されている。具体的には、それぞれの潜在的に危険なシナリオに対し、ごくわずかな違いを持つ安全なシナリオがペアとして用意されている。これにより、モデルが危険な要素を過剰に検出したり見過ごしたりすることなく、微妙な文脈上のニュアンスを理解して安全性に関する判断を下せるかが試される。このベンチマークには、合計で1196の多岐にわたるシナリオが含まれ、これらは倫理、プライバシー、違法行為、有害なコンテンツ生成といった4つの主要な安全カテゴリに分類されている。これらのシナリオは、単一のモダリティでは判断が困難な、複数のモダリティからの情報統合が不可欠なケースを多く含んでいるのが特徴である。

MCBenchを用いて最先端のOmni LLMを評価した結果、現在のモデルが安全性判断において重大な課題を抱えている実態が明らかになった。特に、曖昧な文脈や非物理的な形態で提示されるリスクに対して、モデルは一貫して低いパフォーマンスを示した。これは、具体的な視覚的または音響的キューが顕著に存在しない場合、モデルが危険を正確に認識できない可能性を示唆している。一方で、危険を示す明確な視覚的または音響的信号が入力に含まれる場合、モデルのパフォーマンスは比較的良好になる傾向が確認された。

さらに、推論の追跡分析を通じて、モデルの内部的な挙動が詳細に調査された。その結果、Omni LLMは各モダリティから個別の情報を抽出する能力は持っているものの、安全性判断のためにこれらのモダリティ固有のキューを効果的に統合し、クロスモーダルな推論を行う点に課題があることが指摘された。たとえば、画像が示す文脈と音声が伝える意図、テキストが描写する状況を総合的に理解し、それらの相互作用から生じる潜在的なリスクを評価する能力が不十分であることが示された。これらの知見は、現在のOmni LLMが、安全性に不可欠な設定において堅牢なクロスモーダル推論能力を欠いていることを明確に示しており、マルチモーダル環境における安全性確保のためには、モデルのアーキテクチャとトレーニング戦略の両面において抜本的な改善が必要であると結論付けられている。具体的には、異なるモダリティ間の情報統合メカニズムの強化や、より複雑な多感覚的文脈を理解するための新しいトレーニングパラダイムの探求が求められる。

参考: arXiv cs.CL — 2026年6月5日 13:00 (JST)