Aimen Boukhari氏は2026年4月16日(現地時間)、言語表現学習のための新たな自己教師あり事前学習手法を提案した。これは、Masked Language Modelling (MLM) が表層的なトークン同一性に基づく表現を促す課題に対応する。提案手法は、Joint Embedding Predictive Architectures (JEPA) に着想を得たハイブリッドな事前学習目的を採用し、JEPA形式の潜在空間予測損失と標準MLM目的を単一エンコーダー上で結合。深い意味構造を捉える表現の生成を目指す。
テキストエンコーダーの事前学習目的として広く用いられてきたMasked Language Modelling (MLM) は、深い意味構造よりも表層的なトークン同一性に強く基づく表現を促す傾向があるという課題が認識されていた。
Aimen Boukhari氏らは、視覚および音声分野で成功を収めているJoint Embedding Predictive Architectures (JEPA) (LeCun, 2022) に着想を得て、この課題に対応するハイブリッドな事前学習目的を提案した。この目的は、JEPAスタイルの潜在空間予測損失と標準的なMLM目的を、単一の共有エンコーダー上で結合させるものであり、学習可能なスカラーパラメータがトレーニング中にこれら二つの目的のバランスを継続的に調整する仕組みが導入されている。研究チームは、このハイブリッドモデルと純粋なMLMベースラインモデルを、英語Wikipediaをデータセットとして用い、同一のアーキテクチャとNVIDIA H100 GPUを使用し、事前学習を実施した。
GLUEベンチマーク(SST-2, MRPC, MNLI, CoLA, STS-B)を用いた広範な表現解析の結果、ハイブリッドエンコーダーは、より均一な埋め込みを生成し(MLMの-0.05に対し-0.16未満)、max pooling下でより豊かなスペクトル幾何学を示した。さらに、表層レベルの語彙情報をあまりエンコードせず、より良い意味と語彙のバランスを達成することが明らかになった。線形プローブを用いた下流タスクの精度は両モデルで類似していたものの、一貫して見られた幾何学的な違いは、JEPA予測目的が標準的な精度指標だけでは捉えきれない形で潜在空間を再構築することを示唆している。
参考: arXiv cs.CL (アーカイブ) — 2026年6月5日 13:00 (JST)
原文ハイライト"Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning"