Googleは6月30日(現地時間)、表形式データに対応するゼロショット基盤モデル「TabFM」を発表しました。TabFMは、BigQuery MLに直接統合されており、表形式データの分類および回帰ワークフローを簡素化します。これにより、手動でのモデルトレーニング、ハイパーパラメータ調整、および複雑な特徴量エンジニアリングが不要となり、単一のフォワードパスで高品質な予測を生成します。
TabFMは、従来の機械学習パラダイムがデータセット固有のモデルパラメータ更新に依存していたのとは対照的に、インコンテキスト学習(ICL)パラダイムを採用しています。これにより、各新しいタスクに対する従来のトレーニングフェーズを経ることなく、履歴トレーニング例とターゲットテスト行を含むデータセット全体を単一のプロンプトとして処理します。モデルは推論時に、このコンテキストから列と行の関係を直接解釈します。
表形式データにICLを適用するため、TabFMはTabPFNとTabICLのようなアーキテクチャの強みを組み合わせたハイブリッド設計を採用しています。このアーキテクチャは、交互行・列アテンション、行圧縮、およびTransformerの使用を特徴としています。これにより、複雑な特徴量インタラクションと依存関係をネイティブに捉え、データサイエンティストによる手動の特徴量作成を不要にします。
大規模な基盤モデルの構築には通常、多様なデータを用いた高容量のニューラルネットワークが用いられます。しかし、表形式MLにおける主要な課題は、オープンソースで高品質かつ多様な表形式データセットが不足していることです。このため、TabFMは構造化モデル(SCMs)を使用し、動的に生成された大量の合成データセットで完全にトレーニングされています。この大規模な合成データ生成により、実際の表形式データに普遍的な幅広い分布と複雑な特徴量関係を捉え、未見の実世界テーブルへの優れた汎化能力を示します。
TabFMは既存の最先端手法との厳密な比較のため、ヘッドツーヘッドの勝率に基づいてEloスコアを計算するベンチマークシステムで評価されました。この評価は、複数の分類データセットと回帰データセットにわたって実施されています。TabFMはHugging FaceとGitHubリポジトリで利用可能であり、BigQuery MLへ直接統合されています。これにより、近い将来、ユーザーは簡単なAI.PREDICT SQLコマンドを使用して高度な回帰と分類を実行でき、MLの専門知識は不要となる、と見られます。
参考: Google Research Blog — 2026年6月30日 19:26 (JST)
原文ハイライト"Introducing TabFM: A zero-shot foundation model for tabular data"