ピルシェン・イポリット氏 (Pilchen Hippolyte) を含む研究チームは2026年5月21日(現地時間)、大規模言語モデル (LLMs) の事前学習におけるデータ時間性 (temporality) の影響に関する研究論文をarXiv cs.CL上で公開した。この研究は、LLMsが通常、時間情報がシャッフルされたコーパスで学習され、その知識が学習時に固定されることで、時間的な知識の関連付けが十分に理解されていない現状に一石を投じる。彼らの調査は、LLMsの知識鮮度と正確性を高める新たな道を示唆している。

研究チームは、大規模言語モデル(LLMs)が進化し続ける情報環境に適応し、より正確で最新の事実知識を保持するための根源的な問題意識からこの研究に着手した。従来のLLMsは、事前学習の過程で大量のテキストデータから知識を抽出するが、これらのデータは通常、時間的な順序が考慮されずにシャッフルされた状態で処理される。このため、モデルが特定の事実がいつ真であったか、あるいはその情報が時代遅れになっていないかといった時間的な文脈を適切に理解し、記憶することが困難であるとされてきた。

この課題に対し、研究チームは特にデータの順序が、時間的な制約のある事実知識の獲得に与える影響について深く掘り下げた調査を行った。彼らの主要な貢献の一つは、7,000を超える時間的なグラウンディングがされた質問と、モデルが特定の事実を対応する期間と正確に関連付ける能力を分析可能にする評価プロトコルを含む、独自のベンチマークを新たに導入したことにある。このベンチマークは、LLMsが持つ時間的な知識の精度を客観的に測定するための重要なツールとなる。

さらに、研究では60億パラメータを持つモデルを構築し、異なる事前学習戦略を比較した。具体的には、Common Crawlのデータスナップショットを時系列順に並べ替えて事前学習を行ったモデルと、標準的なシャッフルされたデータで事前学習を行ったベースラインモデルとの性能を比較分析した。Common Crawlは、広範なウェブページから収集された大規模なデータセットであり、その膨大な情報量と時間的な広がりは、本研究の目的に合致する。

実験の結果は注目に値するものであった。時系列順に学習されたモデルは、一般的な言語理解能力や常識に関するタスクにおいて、シャッフルされたデータで学習されたベースラインモデルと同等以上の性能を示すことが確認された。さらに重要な点として、時系列順学習モデルは、一貫してより最新かつ時間的に正確な知識を保持していることが明らかになった。これは、モデルが過去の情報をただ記憶するだけでなく、その情報の「鮮度」を理解し、最新の事実を優先的に学習していることを示唆する。

対照的に、シャッフルされた事前学習を行ったモデルは、比較的古いデータに由来する知識においてピークを示す傾向が見られた。研究チームは、この現象が、古い事実がデータセット内でより頻繁に繰り返されることによって、モデルがそれらの情報をより強く「記憶」してしまう可能性を示唆していると分析している。これは、データの繰り返しが知識の鮮度を低下させる要因となりうることを示唆している。

これらの知見は、LLMsの事前学習戦略に新たな視点を提供する。時間的な順序を考慮したデータ処理は、モデルが現実世界の変化に迅速に対応し、より信頼性の高い情報を生成する能力を向上させる可能性を秘めている。研究で得られたコード、チェックポイント、およびデータセットは、GitHubおよびHuggingfaceで公開されており、これはLLMsの継続学習や知識更新に関する将来の研究開発の基礎となることが期待されている。


参考: arXiv cs.CL (アーカイブ) — 2026年5月22日 02:31 (JST)

原文ハイライト

"Understanding Data Temporality Impact on Large Language Models Pre-training"

この記事をシェア
X はてブ LinkedIn