Apple、セマンティックな視覚表現学習向け「Text-Conditional JEPA」を提案
Appleは2026年5月(現地時間)、セマンティックに豊かな視覚表現を学習する新手法「Text-Conditional JEPA (TC-JEPA)」を発表した。この手法は、画像キャプションを用いて、既存のImage-based Joint-Embedding Predictive Architecture (I-JEPA) が持つマスク領域予測における視覚的不確実性を低減する。具体的には、細粒度テキストコンディショナーが入力トークンに対しスパースなクロスアテンションを計算し、予測パッチ特徴をテキストの関数として変調、予測可能にする。