Apple、セマンティックな視覚表現学習向け「Text-Conditional JEPA」を提案

Appleは2026年5月(現地時間)、セマンティックに豊かな視覚表現を学習する新手法「Text-Conditional JEPA (TC-JEPA)」を発表した。この手法は、画像キャプションを用いて、既存のImage-based Joint-Embedding Predictive Architecture (I-JEPA) が持つマスク領域予測における視覚的不確実性を低減する。具体的には、細粒度テキストコンディショナーが入力トークンに対しスパースなクロスアテンションを計算し、予測パッチ特徴をテキストの関数として変調、予測可能にする。

TC-JEPAの導入により、パッチ特徴はよりセマンティックに意味のあるものになるという。Appleによると、この手法はダウンストリームのパフォーマンスとトレーニングの安定性を向上させ、有望なスケーリング特性を示す。また、TC-JEPAは特徴予測のみに基づく新しいビジョン-言語事前学習パラダイムを提供し、微細な視覚的理解と推論を必要とする多様なタスクにおいて、対照的な手法を上回る結果を示している。

同発表の著者には、Chen Huang、Xianhang Li、Vimal Thilak、Etai Littwin、Josh Susskindが名を連ねる。

関連研究