Appleは2026年5月(現地時間)、セマンティックに豊かな視覚表現を学習する新手法「Text-Conditional JEPA (TC-JEPA)」を発表した。この手法は、画像キャプションを用いて、既存のImage-based Joint-Embedding Predictive Architecture (I-JEPA) が持つマスク領域予測における視覚的不確実性を低減する。具体的には、細粒度テキストコンディショナーが入力トークンに対しスパースなクロスアテンションを計算し、予測パッチ特徴をテキストの関数として変調、予測可能にする。

TC-JEPAの導入により、パッチ特徴はよりセマンティックに意味のあるものになるという。Appleによると、この手法はダウンストリームのパフォーマンスとトレーニングの安定性を向上させ、有望なスケーリング特性を示す。また、TC-JEPAは特徴予測のみに基づく新しいビジョン-言語事前学習パラダイムを提供し、微細な視覚的理解と推論を必要とする多様なタスクにおいて、対照的な手法を上回る結果を示している。

同発表の著者には、Chen Huang、Xianhang Li、Vimal Thilak、Etai Littwin、Josh Susskindが名を連ねる。

関連研究

TC-JEPAに関する研究は、先行するJEPA関連の研究を背景に持つ。

  • Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers: 2025年10月8日に発表されたこの研究は、Video Joint Embedding Predictive Architectures (V-JEPA) が指数移動平均 (EMA) で更新されるティーチャーを用いて潜在空間のマスク領域を予測することで、汎用的なオフザシェルフビデオ表現を学習する手法を見直した。本研究では、凍結されたティーチャーで十分であることが示されている。
  • How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks: 2024年11月20日に発表。Joint Embedding Predictive Architecture (JEPA) が、セマンティックに類似した入力を互いに予測可能な表現にエンコードするアーキテクチャのクラスであることが、この研究によって明らかにされている。

参考: Apple ML Research (アーカイブ) — 2026年5月7日 09:00 (JST)

原文ハイライト

"Text-Conditional JEPA for Learning Semantically Rich Visual Representations"

この記事をシェア
X はてブ LinkedIn