arXiv cs.CLは2026年5月21日(現地時間)、AIチャットボットのニュース仲介能力に関する研究論文を発表した。同研究は、AIチャットボットがニュースに接する人々の方法を急速に変える中、これらのシステムが新たな事実を言語や地域を超えていかに正確に処理するかを体系的に測定した先行研究の不足を指摘。2026年2月9日から22日までの14日間、Gemini 3 FlashおよびPro、Grok 4、Claude 4.5 Sonnet、GPT-5、GPT-4o miniの6システムを評価した。最良システムは、数時間前に報じられた出来事に関する多肢選択式質問で90%以上の精度を達成したが、自由回答形式では11-13%精度が低下したと報告されている。
この評価は、BBC Newsの米国・カナダ、アラビア語、アフリカ、ヒンディー語、ロシア語、トルコ語の6つの地域サービスから派生した2,100の事実質問を使用して実施された。研究では、以下の3つの主要な失敗パターンが特徴づけられた。
第一に、全モデルがヒンディー語で最も低い精度(79%)を示し、他の地域での89-91%と比較して差があった。引用はAnglophone(英語圏)の検索バイアスを示す可能性が指摘された。例えば、ヒンディー語のクエリに回答するモデルは、ヒンディー語のどの媒体よりも英語のWikipediaを多く引用した。
第二に、エラーの70%以上は推論(reasoning)ではなく、検索(retrieval)の失敗に起因していた。モデルが正しい情報源を検索できた場合、多くの場合正しい回答を抽出できたが、問題はそもそも正しい情報源にたどり着くことにあるとされた。
第三に、適切に形成された質問で88-96%の精度を達成するモデルでも、微妙な虚偽の前提を含む質問では19-70%に精度が低下した。最も脆弱なモデルは、ねつ造された事実を64%の割合で受け入れた。また、検出精度パラドックスも特定され、最良の虚偽前提検出器が敵対的精度(abstention rate)で2位にランクされ、より弱い検出器が1位となったことから、前提検出と回答復元が部分的に独立した能力であることが示された。
これらの結果は、高い精度が体系的な地域格差、検索インフラへのほぼ完全な依存、そして実ユーザーが提示する不完全なクエリに対する脆弱性を覆い隠す可能性を示唆している。
参考: arXiv cs.CL (アーカイブ) — 2026年5月22日 02:42 (JST)