arXiv cs.CLは2026年5月28日、大規模言語モデル(LLM)の事前学習データ混合比を生成テキストから推定する新たな研究論文が公開されたと報じた。この研究は、手法を「Data Mixture Surgery(DMS)」として形式化し、それを実現するフレームワーク「LLMSurgeon」を提案。評価スイート「LLMScan」による検証では、LLMSurgeonが高い精度でドメイン混合比を回復したとしている。
大規模言語モデル (LLM) の事前学習データ混合比は、モデルの挙動、能力、失敗モードを形成する「デジタルDNA」とされる。しかし、その構成はほとんど開示されておらず、データ結合や出所の事後監査が困難であることが指摘されている。
本研究では、ターゲットとなる大規模言語モデルが生成したテキストのみから、事前定義された分類法に基づき、その事前学習コーパスのドメインレベル分布を推定するData Mixture Surgery (DMS)を形式化した。提案された「LLMSurgeon」は、DMSをラベルシフト仮定の下での逆問題として扱うフレームワークである。LLMSurgeonは、分類器の出力を直接集約するのではなく、キャリブレーションされたソフトな混同行列 (soft confusion matrix) を推定し、制約付き逆問題を解決することで、系統的なドメイン混同を補正し、潜在的な混合事前分布 (latent mixture prior) を回復させる。
評価のために、透明な事前学習混合比を持つオープンソースの大規模言語モデルから構築された検証可能な評価スイート「LLMScan」が導入された。LLMScan全体において、LLMSurgeonは固定プロトコルの下でドメイン混合比を高精度で回復することを示した。
この研究は、基盤モデル (foundation models) のトレーニングデータにアクセスすることなく、それらの「デジタルDNA」を事後監査するための実践的なアプローチを提示している。本論文の著者は、ヤキシン・ルオ (Yaxin Luo) 氏、ジアチェン・ツイ (Jiacheng Cui) 氏、シャオハン・ツァオ (Xiaohan Zhao) 氏、シンイー・シャング (Xinyi Shang) 氏、ジアチェン・リウ (Jiacheng Liu) 氏、シンユエ・ビ (Xinyue Bi) 氏、ザオイー・リ (Zhaoyi Li) 氏、ジーチャン・シェン (Zhiqiang Shen) 氏らが名を連ねており、ACL 2026 Mainで発表される予定だ。
参考: arXiv cs.CL — 2026年5月29日 02:59 (JST)
原文ハイライト"LLMSurgeon: Diagnosing Data Mixture of Large Language Models"