大規模言語モデルの「デジタルDNA」診断、「LLMSurgeon」がデータ混合比を推定
arXiv cs.CLは2026年5月28日、大規模言語モデル(LLM)の事前学習データ混合比を生成テキストから推定する新たな研究論文が公開されたと報じた。この研究は、手法を「Data Mixture Surgery(DMS)」として形式化し、それを実現するフレームワーク「LLMSurgeon」を提案。評価スイート「LLMScan」による検証では、LLMSurgeonが高い精度でドメイン混合比を回復したとしている。