Yaxin Du氏らの研究チームは5月11日(現地時間)、機械学習システムにおけるデータエンジニアリングを自律化する新フレームワーク「DataMaster(データマスター)」に関する論文をarXiv cs.LGで公開した。このDataMasterは、学習アルゴリズムに変更を加えることなくデータ側の最適化のみで性能向上を目指す自律エージェント手法を提案。ツリー構造探索、共有データプール、累積メモリの三要素を統合し、データ工学の課題に対応する。評価実験では、MLE-Bench Liteでメダル率32.27%の改善を報告した。
機械学習システムの性能向上は、モデルアーキテクチャやトレーニング手法、計算予算が標準化されるにつれて、データ側の品質や効率性への依存度を高めていると論文は指摘する。しかし、現状のデータエンジニアリングは、外部データセットの探索、既存パイプラインへの適合、下流トレーニングによる候補データの検証、過去の知見活用といった一連の作業が手動かつ場当たり的に行われ、体系化された手法が確立されていない現状がある。
DataMasterは、この課題に対し、タスク条件付きの自律データ工学という研究課題を設定する。自律エージェントが、外部データの発見、データ選択と構成、クリーニングと変換といったデータ側の操作のみを最適化する設計を採用し、学習アルゴリズムそのものは一切変更しない。このアプローチにより、既存の学習基盤をそのまま活用しながら、下流タスクの性能向上を図ることが可能になると研究チームは主張する。
フレームワークが直面する固有の課題としては、無限に広がる探索空間、ブランチ間の依存関係に基づく段階的な洗練、そして下流学習プロセスを経なければ候補データの質を評価できない検証の遅延が挙げられる。DataMasterは、これら三つの課題に対応するため、ツリー構造の探索、共有候補データ、累積メモリの三要素を統合した設計を採用している。
主要なコンポーネントは三つある。第一に、DataTreeは代替のデータ工学ブランチを木構造で整理し、並列的な候補探索を可能にする。第二に、Data Poolは発見された外部データソースを蓄積し、ブランチをまたいだ効率的な再利用を支援する。第三に、Global Memoryは各ノードの実行結果、生成された成果物、再利用可能な知見を記録することで、エージェントが過去の試行から学習を積み上げる機構を提供する。これら三要素が密接に連携することで、エージェントは候補データを発見し、実行可能なトレーニング入力を構築し、下流フィードバックを通じて評価した上で、有用なエビデンスをブランチ間で伝達するサイクルを自律的に実行する。
性能評価は二種類のベンチマークで実施された。MLE-Bench Liteでの実験では、初期スコアに対してメダル率が32.27%改善したと報告されている。また、PostTrainBenchのGPQAタスクでは、31.02%のスコアを記録し、ベースとなるインストラクトモデルの30.35%を上回る結果を示した。これらの結果は、DataMasterが機械学習システムのデータエンジニアリングにおいて、手動プロセスが抱える課題を解決し、性能を向上させる可能性を示唆している。
参考: arXiv cs.LG — 2026年5月12日 02:46 (JST)