#コンピュータビジョン関連記事

VLM多言語評価に課題、スクリプト不一致で最大16%精度差──arXiv論文が新ベンチマーク提案

arXiv cs.CVは6月15日(現地時間)、論文を発表し、現在のビジョン言語モデル（VLM）の多言語評価が、言語と正書法の一対一マッピングを前提とし、複数スクリプト言語の利用者を考慮していない実態を指摘しました。この課題に対し、研究者らはパンジャビ語（Punjabi）の3つのスクリプトに対応する「PuMVR（パンジャビ・マルチモーダル・ビジュアル・リーズニング）」ベンチマークを導入。既存VLMの性能に最大16%の「スクリプト・ギャップ」が存在することを明らかにしました。

リサーチ・論文 6月4日 19:15 注目

スタンフォードAIラボ、CVPR 2026で研究論文発表

スタンフォードAIラボ (SAIL) は2026年6月3日(現地時間)よりコロラド州デンバーで開催されるコンピュータビジョンとパターン認識に関する国際会議「The Conference on Computer Vision and Pattern Recognition (CVPR) 2026」において、多数の研究成果を発表した。これには自己回帰型動画拡散モデルや制御可能な動画生成、小規模マルチモーダルモデルにおける知覚と推論のボトルネックに関する研究などが含まれる。

リサーチ・論文 5月16日 20:17

RefDecoder、条件付きビデオデコーディング導入で視覚生成の精度向上へ

研究論文投稿サイトarXiv cs.CVは2026年5月14日(現地時間)付で、条件付きビデオデコーディング手法「RefDecoder (リフデコーダー)」に関する論文を公開した。本手法は、参照条件付きビデオVAEデコーダを活用することで、既存のビデオ生成モデルが抱える詳細の損失や入力画像との不整合といった課題の解決を図る。高忠実度の参照画像信号をデコードプロセスに直接注入し、生成品質の向上を通じて、よりリアルで一貫性のある視覚コンテンツの生成に寄与すると報告されている。

リサーチ・論文 5月8日 08:31

Apple、セマンティックな視覚表現学習向け「Text-Conditional JEPA」を提案

Appleは2026年5月(現地時間)、セマンティックに豊かな視覚表現を学習する新手法「Text-Conditional JEPA (TC-JEPA)」を発表した。この手法は、画像キャプションを用いて、既存のImage-based Joint-Embedding Predictive Architecture (I-JEPA) が持つマスク領域予測における視覚的不確実性を低減する。具体的には、細粒度テキストコンディショナーが入力トークンに対しスパースなクロスアテンションを計算し、予測パッチ特徴をテキストの関数として変調、予測可能にする。