VLM多言語評価に課題、スクリプト不一致で最大16%精度差──arXiv論文が新ベンチマーク提案

arXiv cs.CVは6月15日(現地時間)、論文を発表し、現在のビジョン言語モデル（VLM）の多言語評価が、言語と正書法の一対一マッピングを前提とし、複数スクリプト言語の利用者を考慮していない実態を指摘しました。この課題に対し、研究者らはパンジャビ語（Punjabi）の3つのスクリプトに対応する「PuMVR（パンジャビ・マルチモーダル・ビジュアル・リーズニング）」ベンチマークを導入。既存VLMの性能に最大16%の「スクリプト・ギャップ」が存在することを明らかにしました。

プラブジョット・シン (Prabhjot Singh) 氏らは、ビジョン言語モデル (VLM) の多言語評価における既存の課題として、言語と正書法（orthography）が1対1で対応するという前提が、複数スクリプト（multi-script）言語の数十億人のユーザーを見過ごしている点を挙げました。

研究チームはこの問題に対処するため、PuMVR (パンジャビ・マルチモーダル・ビジュアル・リーズニング)という新しいベンチマークを開発しました。これは、パンジャビ語の3つの主要なスクリプト、すなわちグルムキー (Gurmukhi)、シャーモキー (Shahmukhi)、およびローマ字 (Roman) にわたる1,000の厳密にパラレルな画像とテキストのインスタンスで構成されています。

10の最先端VLMを評価した結果、スクリプト・ギャップ (Script Gap)と呼ばれる、大規模かつ系統的な性能差が発見されました。モデルは、あるスクリプトでは視覚タスクを解決できる一方で、同一のタスクを別のスクリプトでは失敗することが頻繁にあり、その精度差は最大で16%に達しました。視覚入力は絶対的なパフォーマンスを均一に向上させるものの、この正書法間のギャップを埋めることはありませんでした。さらに、スクリプト間のインコンテキスト転移は非常に脆く、スクリプトに固定された知識表現を示唆しています。

すべてのスクリプトペアに対するマクネマー検定 (McNemar tests) によって裏付けられたこれらの調査結果は、現在の「多言語」VLMが真にマルチスクリプトではないことを示しています。研究チームは、スクリプト非依存の評価を確実にするための必須の指標として、「スクリプト一貫性率 (SCR)」を提案しました。この指標は彼らのベンチマーク上で最低24.8%まで低下しています。

参考: arXiv cs.CV — 2026年6月17日 13:00 (JST)