LLMの欺瞞能力、複雑な役割ゲームで課題露呈ゲッティンゲン大学

ゲッティンゲン大学の研究チームは2026年4月9日(現地時間)、大規模言語モデル (LLM) の推論、説得、および欺瞞といった複雑な能力を評価する研究論文をarXiv cs.CLで発表した。ソーシャルディダクションゲーム「シークレット・ヒトラー」を検証に用いた結果、現在のLLMアーキテクチャは、多段階にわたる複雑な操作や欺瞞の維持において課題を抱えていることが示された。この研究は、AIの安全性とアラインメントの追求において重要な示唆を与える。

ニコラス・バウアー氏が主導する本研究は、大規模言語モデル (LLM) が持ち得る欺瞞的な潜在能力を定量的に評価することが、将来のAIの安全性確保に不可欠であると指摘する。研究では、特に人間の対話や戦略的思考が問われるソーシャルディダクションゲーム「シークレット・ヒトラー」を選定し、その中でLLMが示す推論、説得、そして欺瞞の能力を詳細に調査した。

バウアー氏は、LLMのパフォーマンスを測定するため、役割識別精度 (Role Identification Accuracy)、欺瞞維持率 (Deception Retention Rate)、ゲーム状態影響率 (Game State Impact Rate)といった新たな指標を導入したオープンソースの評価フレームワークを開発した。このフレームワークを用いて、LLMのプレイをルールベースのアルゴリズムや人間のプレイと比較した結果、LLMの会話生成能力と戦略的深さの間には顕著なギャップが存在することが判明した。

さらに、Chain-of-Thought promptingや「内部メモリ」といった推論強化技術が、勝率や戦略的推論に与える影響も分析された。驚くべきことに、これらの技術は必ずしもパフォーマンスの改善には繋がらず、ファシスト役を演じた場合には勝率が最大で23.2%悪化するという結果が出た。ルールベースのエージェントが熟練した人間の投票決定と86.7%の確率で一致したのに対し、「Llama 3.1 70B」のような高性能モデルでも、その精度は59.7%に留まったと報告されている。

ファシスト役を務めたLLMモデルは、一貫して負の影響スコアを示し、ゲームを通じて欺瞞を維持することに失敗した。その結果、人間がプレイするゲームと比較して、全体のゲーム時間は約40%短縮される傾向が見られた。これらの発見は、現在のLLMアーキテクチャが、複雑で多段階にわたる戦略的および欺瞞的シナリオにおいて、十分な効果を発揮できないことを強く示唆している。研究チームが開発したフレームワークは、今後のAIアラインメント研究における、再現性の高いテストベッドとしての役割が期待されている。

参考: arXiv cs.CL — 2026年5月25日 13:00 (JST)