機械学習のデータセット蒸留、コアセット選択に劣位 大規模データで判明
arXiv cs.LGは6月16日(現地時間)、機械学習におけるデータセット蒸留 (Dataset Distillation, DD) 手法の有効性に疑問を呈する論文を公開した。同論文は、大規模データセットを用いた実験において、最先端のDD手法がコアセット選択 (Coreset Selection, CS) と同等か、または劣る性能を示し、その構築コストも高いと指摘。データ中心型機械学習におけるDDの実用的な利点が限定的である可能性を示唆し、CSの競争力を強調している。