arXiv cs.LGは4月27日(現地時間)、ユエ・ミン氏らが大規模言語モデル(LLM)の事前学習データキュレーションを最適化する新フレームワーク「GEM(Geometric Entropy Mixing)」を発表した。データ量だけでなくデータ構成の質がLLMの性能を左右する中、GEMは既存手法の課題克服を目指す。このフレームワークは、ハイパースフィア上の変分問題としてデータキュレーションを再定義し、クラスタ崩壊を防ぎつつバランスの取れた意味構造の発見を目指すアプローチとして注目される。
大規模言語モデル(LLM)の性能向上において、事前学習データのキュレーションは極めて重要性を増している。従来のデータキュレーション手法は、多くの場合、データセットの規模拡大に焦点を当ててきたが、データ量の増加だけではモデルの汎化能力や効率的な学習には限界があることが指摘されている。データセット内の意味構造のバランスや多様性を確保することが、今後のLLM開発において不可欠となっている。
GEM(Geometric Entropy Mixing)は、この課題に対し、データキュレーションを幾何学的な視点から再構築する。具体的には、混合バランス正則化器を導入し、データキュレーションをハイパースフィア上の変分問題として定式化する。このアプローチにより、データポイント間の関係性を、ユークリッド空間における距離に基づくヒューリスティクスでは捉えにくい、より複雑で微妙な幾何学的構造として捉えることを可能にする。研究チームは、目的関数を最適化するためにMM(Minorize-Maximize)アルゴリズムを採用しており、これにより、データクラスタが特定の点に集中しすぎる「クラスタの崩壊」という現象を効果的に防ぐことを目指す。クラスタ崩壊は、データセット内の多様性が失われ、モデルが偏った表現を学習するリスクを高めるため、これを防ぐことは頑健なLLM学習において極めて重要とされている。
この幾何学的アプローチのウェブスケールコーパスへの適用可能性を高めるため、GEMは教師-生徒蒸留の技術を利用する。これは、大規模な教師モデルの知識を、より小さな生徒モデルへと効率的に転移させる手法であり、計算資源の制約がある環境でも幾何学的キュレーションの恩恵を受けられるよう設計されている。さらに、GEMはGeometric Influence Score(GIS)という新たな指標を導入している。GISは、各データポイントが全体の意味構造に与える幾何学的な影響度を定量化するものであり、これにより、モデル開発者はデータセット内のどのような情報が重要であるか、または不足しているかをより深く理解し、解釈可能な分類生成に寄与するとされる。この透明性は、データキュレーションプロセスの信頼性を高め、よりターゲットを絞ったデータセットの改善に貢献する見込みだ。
研究チームは、11億パラメータ規模のLLMを用いた広範な実験を通じてGEMの効果を検証した。実験では、データ混合戦略として広く用いられているDoReMiやRegMixといった既存の手法にGEMを組み込むことで、その性能がどのように変化するかを評価した。結果として、GEMを統合したモデルは、平均的なダウンストリーム精度において最大1.2%の有意な向上が見られたと報告されている。この成果は、予測可能で堅牢なデータ混合のための新しい座標系を確立するものであり、LLMの事前学習におけるデータキュレーションの分野で新たな方向性を示すものとされている。本論文は、機械学習分野の著名な国際会議であるICML 2026に提出されている。
参考: arXiv cs.LG (アーカイブ) — 2026年5月27日 13:00 (JST)
原文ハイライト"GEM: Geometric Entropy Mixing for Optimal LLM Data Curation"