オープンソースLLMの政治的偏向を評価、オンライン影響力レッドチームフレームワーク導入
arXiv cs.CLは2026年5月20日(現地時間)、大規模言語モデル(LLM)を用いたオンライン上の影響力キャンペーンへの懸念が高まる中、その実態を評価するレッドチーミングフレームワークを導入した研究を発表した。この研究は、特定のAPI提供モデルではなく、ローカル展開が可能な30以上のオープンソースLLMに焦点を当てて評価を実施し、「LLM Overton Windows (OWs)」と呼ばれる政治的意見の表現範囲を測定した。さらに、自然言語によるジェイルブレイクがその範囲をどのように拡大するかを定量的に分析した。