arXiv cs.CLは2026年5月20日(現地時間)、大規模言語モデル(LLM)を用いたオンライン上の影響力キャンペーンへの懸念が高まる中、その実態を評価するレッドチーミングフレームワークを導入した研究を発表した。この研究は、特定のAPI提供モデルではなく、ローカル展開が可能な30以上のオープンソースLLMに焦点を当てて評価を実施し、「LLM Overton Windows (OWs)」と呼ばれる政治的意見の表現範囲を測定した。さらに、自然言語によるジェイルブレイクがその範囲をどのように拡大するかを定量的に分析した。
オンラインでの議論にLLMベースのエージェントが広く参加するにつれ、政治的影響力キャンペーンを支援するそれらの能力をレッドチーム化することが、情報の完全性にとって重要であると指摘されている。本研究は、プライバシーを重視する悪意あるアクターがソーシャルメディア環境で展開する際の運用上の制約から、フロンティアAPIのみのモデルよりも適しているとされるローカル展開可能なオープンソースLLMに焦点を当てて実施された。
研究者らは、モデルが論争の的となるトピックに関して確実に表現できる政治的意見の範囲を定義するLLM Overton Windows (OWs)を測定する経験的レッドチームフレームワークを導入した。このフレームワークは、単純な自然言語によるジェイルブレイクがその表現範囲をどのように拡大するかを定量化する手法も提示している。この手法を用いて、10のモデルファミリーと5つの出身国にわたる30以上のLLMが評価された。
評価の結果、政治的表現において体系的な非対称性が確認された。具体的には、オープンソースLLMは一般的に左寄りのソーシャルメディアコンテンツを生成する傾向が強いことが判明した。また、OWsはモデルサイズに反比例して縮小する傾向があること、そしてオープンソースエコシステムにおける表現の不均衡が存在するにもかかわらず、地域差が著しいことも示された。さらに、ジェイルブレイクの効力はモデルファミリー間で大きく異なり、効果的なジェイルブレイク技術の組み合わせを特定するワークフローの重要性が示唆された。
これらの結果は、オープンソースLLMの政治的操縦可能性を監査するための実用的なフレームワークを確立するものであり、将来の研究者がLLMを利用した影響力キャンペーンに対するより強力な対策を設計するのに役立つとされている。本論文はダニエル・C・ルイス氏らが執筆した。
参考: arXiv cs.CL — 2026年5月25日 13:00 (JST)