LLM安全性評価、ベンチマーク不在下での比較スコアリング手法を検証

arXiv cs.LGが2026年5月7日(現地時間)付けで報じたところによると、ラベル付きベンチマークが存在しない状況下で大規模言語モデル（LLM）の安全性を比較するための新しい評価手法が提案され、その検証結果が公開された。この手法は「ベンチマークレス比較安全性スコアリング」と称され、シナリオベースの監査を導入の証拠として解釈する契約が形式化された。

多くのLLM導入において、関連する言語、セクター、または規制体制に対応するラベル付きベンチマークがない段階でも、候補となるモデルの安全性を比較する必要がある。研究者らはこの課題に対し、固定されたシナリオパック、ルーブリック、監査人、評価者、サンプリング構成、および再実行予算の下でのみスコアが有効であると定義した。

ラベルが存在しないため、本手法ではグラウンドトゥルース（真実のラベル）との合意を「器械的妥当性連鎖」で代替する。この連鎖は、制御された「安全対消去済み」のコントラストへの応答性、監査人および評価者の成果物に対するターゲット駆動型分散の優位性、そして再実行全体での安定性という要素で構成される。

この器械的妥当性連鎖は、ローカルファーストのスコアリングツールであるSimpleAuditに実装され、ノルウェーの安全性パックで検証された。結果として、安全なターゲットと消去済みのターゲットは0.89から1.00のAUROC値で分離し、ターゲットIDが主要な分散要素（η² ≈ 0.52）であり、深刻度プロファイルは10回の再実行で安定することが示された。同じ連鎖をPetriにも適用したところ、Petriもこのツールとして許容されることが示された。

ノルウェーの公共部門における調達事例では、BorealisとGemma 3という二つのモデルを比較し、より安全なモデルがシナリオカテゴリとリスク尺度に依存することが実証された。このことから、スコア、一致した差分、クリティカルレート、不確実性、および使用された監査人と評価者は、単一のランキングに集約されるのではなく、まとめて報告される必要があると結論付けられている。

参考: arXiv cs.LG (アーカイブ) — 2026年5月8日 02:56 (JST)