VLM多言語評価に課題、スクリプト不一致で最大16%精度差──arXiv論文が新ベンチマーク提案
arXiv cs.CVは6月15日(現地時間)、論文を発表し、現在のビジョン言語モデル(VLM)の多言語評価が、言語と正書法の一対一マッピングを前提とし、複数スクリプト言語の利用者を考慮していない実態を指摘しました。この課題に対し、研究者らはパンジャビ語(Punjabi)の3つのスクリプトに対応する「PuMVR(パンジャビ・マルチモーダル・ビジュアル・リーズニング)」ベンチマークを導入。既存VLMの性能に最大16%の「スクリプト・ギャップ」が存在することを明らかにしました。