arXiv、大規模言語モデル最適化の新手法「GEM」を発表 データキュレーションを幾何学的に再定義
arXiv cs.LGは4月27日(現地時間)、ユエ・ミン氏らが大規模言語モデル(LLM)の事前学習データキュレーションを最適化する新フレームワーク「GEM(Geometric Entropy Mixing)」を発表した。データ量だけでなくデータ構成の質がLLMの性能を左右する中、GEMは既存手法の課題克服を目指す。このフレームワークは、ハイパースフィア上の変分問題としてデータキュレーションを再定義し、クラスタ崩壊を防ぎつつバランスの取れた意味構造の発見を目指すアプローチとして注目される。