機械学習のデータセット蒸留、コアセット選択に劣位大規模データで判明

arXiv cs.LGは6月16日(現地時間)、機械学習におけるデータセット蒸留 (Dataset Distillation, DD) 手法の有効性に疑問を呈する論文を公開した。同論文は、大規模データセットを用いた実験において、最先端のDD手法がコアセット選択 (Coreset Selection, CS) と同等か、または劣る性能を示し、その構築コストも高いと指摘。データ中心型機械学習におけるDDの実用的な利点が限定的である可能性を示唆し、CSの競争力を強調している。

データセット蒸留 (DD) は、大規模データセットから少数の合成サンプルを生成し、効率的な訓練を可能にするコンパクトな訓練セットを合成することを目的とした、データ中心型機械学習の技術である。従来のDD手法の評価プロトコルは一貫性に欠け、その真の有効性を客観的に判断することが困難であった。多くの先行研究では、DDが実データサブセットに限定されるコアセット選択 (CS) などのデータ剪定アプローチよりも優れていると主張されてきた。

今回の研究では、Trisha Mittal氏、Akshay Mehra氏、Joshua Kimball氏の研究チームが、標準化されたデータセットと評価プロトコルを用いて大規模な実験を実施し、DD手法の有効性を評価した。彼らは、ImageNet-1K、ImageNet100、ImageNetteという3つのデータセット上で、7つの最先端 (SOTA) のDD手法をベンチマークした。比較対象として、3つの広く採用されている訓練プロトコルと3つのCS戦略が用いられた。

実験の結果、一部のDD手法は単純なランダムサブセットの性能すら凌駕しないことが判明した。また、最先端のDD手法は、大規模データセットにおいてコアセットと同等か、あるいは劣る性能を示し、その構築にはコアセットよりも大幅に高い計算コストがかかることが明らかになった。精度に加え、凝縮されたセットの代表性、多様性、品質も評価された結果、コアセットは元のデータ分布のより良いカバレッジを常に達成することが示された。これらの知見は、現在のDD手法の実用的な利点が限られていることを示唆し、データ中心の学習においてコアセットが競争力のある、しばしば計算効率の高い代替手段となりうるとしている。

本研究は、データセット蒸留の研究開発に投資してきた企業や、大規模データセットの効率的な処理を模索する実務者に対し、技術選定における再検討を促すものとみられる。高精度が求められるAI開発において、DDによる性能向上が限定的であり、コアセット選択 (CS) よりも高コストであるという指摘は、重要な判断材料となる。データキュレーションの領域では、CSのような実データに基づく効率的なサブセット選択技術の評価が今後一層進む可能性がある。

参考: arXiv cs.LG — 2026年6月17日 02:37 (JST)