リサーチ・論文

VLM多言語評価に課題、スクリプト不一致で最大16%精度差──arXiv論文が新ベンチマーク提案

arXiv cs.CVは6月15日(現地時間)、論文を発表し、現在のビジョン言語モデル(VLM)の多言語評価が、言語と正書法の一対一マッピングを前提とし、複数スクリプト言語の利用者を考慮していない実態を指摘しました。この課題に対し、研究者らはパンジャビ語(Punjabi)の3つのスクリプトに対応する「PuMVR(パンジャビ・マルチモーダル・ビジュアル・リーズニング)」ベンチマークを導入。既存VLMの性能に最大16%の「スクリプト・ギャップ」が存在することを明らかにしました。

リサーチ・論文

RefDecoder、条件付きビデオデコーディング導入で視覚生成の精度向上へ

研究論文投稿サイトarXiv cs.CVは2026年5月14日(現地時間)付で、条件付きビデオデコーディング手法「RefDecoder (リフデコーダー)」に関する論文を公開した。本手法は、参照条件付きビデオVAEデコーダを活用することで、既存のビデオ生成モデルが抱える詳細の損失や入力画像との不整合といった課題の解決を図る。高忠実度の参照画像信号をデコードプロセスに直接注入し、生成品質の向上を通じて、よりリアルで一貫性のある視覚コンテンツの生成に寄与すると報告されている。

リサーチ・論文

Apple、セマンティックな視覚表現学習向け「Text-Conditional JEPA」を提案

Appleは2026年5月(現地時間)、セマンティックに豊かな視覚表現を学習する新手法「Text-Conditional JEPA (TC-JEPA)」を発表した。この手法は、画像キャプションを用いて、既存のImage-based Joint-Embedding Predictive Architecture (I-JEPA) が持つマスク領域予測における視覚的不確実性を低減する。具体的には、細粒度テキストコンディショナーが入力トークンに対しスパースなクロスアテンションを計算し、予測パッチ特徴をテキストの関数として変調、予測可能にする。