arXiv cs.CLは2026年6月11日(現地時間)、Marek Šuppa氏らが執筆した論文を公開し、その中で低リソース言語であるスロバキア語を対象とした初の包括的なテキスト埋め込みベンチマーク「SkMTEB」を発表した。このベンチマークは、31のデータセットと7種類のタスクタイプで構成されており、既存の多言語ベンチマークに比べスロバキア語の網羅範囲が約4倍深く、精緻な評価を可能にする。論文では、31の埋め込みモデルを評価した結果、大規模な命令チューニング済み多言語モデルが最も高い性能を示し、既存のスロバキア語特化NLUモデルは埋め込みタスクへの転移性能が低いことが判明したと報告している。
Marek Šuppa氏、Andrej Ridzik氏、Daniel Hládek氏、Natália Kňažeková氏、Viktória Ondrejová氏の5名からなる研究チームは、西スラヴ語の一つであるスロバキア語に特化した初の包括的なテキスト埋め込みベンチマーク「SkMTEB」を紹介した。このベンチマークは、テキスト埋め込みモデルの性能を多角的に評価するため、31のデータセットと7種類の主要なタスクタイプ(セマンティック検索、クラスタリング、ペア分類、再ランキング、要約、質問応答、テキスト分類)で構築されている。これにより、特定のタスクに偏らず、幅広い応用分野でのモデル性能を測定できるとしている。
研究チームは、SkMTEBを用いて、事前学習済みモデル、多言語モデル、スロバキア語特化モデルを含む31のテキスト埋め込みモデルを評価した。評価の結果、特に大規模な命令チューニングが施された多言語モデルが全体的に優れた性能を示す一方で、既存のスロバキア語特化NLUモデルは、埋め込みタスクへの転移学習において期待されるほどの性能を発揮しないことが明らかになった。これは、リソースの少ない言語におけるテキスト埋め込みモデル開発の新たな方向性を示唆するもので、既存の言語モデルアーキテクチャや学習戦略の再評価を促す可能性があると研究チームは指摘している。
さらに、研究チームは効率的かつローカルに展開可能なスロバキア語埋め込みモデルの必要性に対応するため、「e5-sk-small」(45Mパラメータ)および「e5-sk-large」(365Mパラメータ)を開発した。これらのモデルは、既存の高性能なMultilingual E5モデルに対し、スロバキア語に特化した語彙削減とファインチューニングを適用することで構築された。このアプローチにより、最大で62%のモデルサイズ削減を実現しながらも、開発されたオープンソースモデルは商用APIに匹敵する高い性能を達成した。これにより、セマンティック検索や検索拡張生成(RAG)といった応用分野において、プライバシー保護やコスト削減の観点からローカル環境での運用が現実的になったとしている。
研究チームは、今回開発されたベンチマーク、モデル、データセット、および関連するコードをすべてオープンソースとして公開している。この取り組みが、スロバキア語だけでなく、他のリソース不足言語におけるテキスト埋め込みモデルの開発を加速させる再現可能な経路を提供すると見られている。この論文は、自然言語処理の主要会議であるACL 2026での発表が予定されている。
参考: arXiv cs.CL — 2026年6月12日 02:50 (JST)
原文ハイライト"SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation"