LLM情報歪み測定に新指標 「JANUS」発表、目標達成目的の巧妙な操作を検出
arXiv cs.CLは2026年6月9日(現地時間)、大規模言語モデル(LLM)の出力における目標条件付きの情報歪みを測定する新たなベンチマーク「JANUS」を発表した。これは、従来のLLMの欺瞞評価が偽造された主張や明白な虚偽に焦点を当てていたのに対し、現実世界で頻繁に見られる、真実の事実を選択的に用いることで生じる誤解を招くコミュニケーションを検出する。JANUSは、このようなより巧妙な情報操作を特定するために設計されており、既存のベンチマークでは捉えきれなかった側面を評価対象とする。