arXiv cs.LGが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (LLMs) の学習と自律的な科学研究を促進するための課題生成において、新たなフレームワーク「VHG」が導入された。この検証者強化型難問生成フレームワークは、従来の二者間自己対戦に独立した検証者を統合し、問題の有効性と難易度によって生成者の報酬を決定する。これにより、既存手法が抱える課題を解決し、有効で挑戦的な問題の生成を目指す。

大規模言語モデル (LLMs) は科学的および数学的問題解決において強力な能力を示す一方で、有効で、挑戦的で、斬新な問題を生み出すことには課題を抱えている。これはLLMのトレーニングを進め、自律的な科学研究を可能にする上で不可欠な要素であると指摘されている。

既存の問題生成アプローチは、高コストな人間専門家の関与に依存するか、あるいは素朴な自己対戦パラダイムを採用する。後者の場合、「報酬ハッキング」により頻繁に無効な問題を生み出す問題があった。

本研究では、この課題に対する解決策として、三者自己対戦に基づく検証者強化型難問生成フレームワーク「VHG」が導入された。この設計は、従来のセッターとソルバーの二者関係に独立した検証者を取り入れることで、セッターの報酬を問題の有効性(検証者による評価)と難易度(ソルバーによる評価)によって共同で決定されるように制約する。

VHGは、ハードシンボリック検証者とソフトLLMベース検証者の二つの検証者バリアントとして具体化された。評価は不定積分タスクと一般的な数学的推論タスクで実施された。実験結果は、VHGが全てのベースライン手法を明確な差で大幅に上回る性能を示した。


参考: arXiv cs.LG (アーカイブ) — 2026年5月8日 02:58 (JST)

原文ハイライト

"VHG, a verifier-enhanced hard problem generation framework built upon three-party self-play."

この記事をシェア
X はてブ LinkedIn