IBMは2026年5月4日(現地時間)、オープンソースライセンスの多言語埋め込みモデル「Granite Embedding Multilingual R2」を発表した。このリリースには、ModernBERTを基盤とする2つのモデルが含まれる。97Mパラメータのコンパクトモデルは、MTEB Multilingual Retrievalにおいてオープンな100Mパラメータ未満の全埋め込みモデル中で最高スコアを記録した。また、311Mパラメータのフルサイズモデルも公開され、両モデルともに200以上の言語をサポートし、52言語で強化された検索品質、32Kトークンのコンテキスト長、Apache 2.0ライセンスでの提供が特徴である。

発表された2つのモデルは、granite-embedding-311m-multilingual-r2とgranite-embedding-97m-multilingual-r2である。前者は311Mパラメータで768次元の埋め込み、Matryoshka次元をサポートし、後者は97Mパラメータで384次元の埋め込みを提供し、そのサイズに対して高い検索品質を実現する。

両モデルは200以上の言語に対応し、特にアルバニア語、アラビア語、中国語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語など52言語では検索品質が強化されている。また、Python、Go、Java、JavaScript、PHP、Ruby、SQL、C、C++の9つのプログラミング言語におけるコード検索もサポートする。コンテキスト長は最大32,768トークンと、R1世代から64倍に増加した。これらのモデルはApache 2.0ライセンスで提供され、sentence-transformersやtransformersといったライブラリと連携し、LangChain、LlamaIndex、Haystack、Milvusなど既存のフレームワークで利用可能である。CPUに最適化されたONNXおよびOpenVINOウェイトも提供される。

97Mパラメータのモデルgranite-embedding-97m-multilingual-r2は、MTEB Multilingual Retrievalの18言語で60.3のスコアを達成し、オープンな100Mパラメータ未満の多言語埋め込みモデルの中で最高スコアとなった。311Mパラメータのフルサイズモデルgranite-embedding-311m-multilingual-r2は同じベンチマークで65.2のスコアを記録した。

R2世代のモデルは、R1世代のXLM-RoBERTaエンコーダから刷新され、ModernBERTアーキテクチャが採用された。この新しいアーキテクチャは、交互の注意長による長シーケンスでの計算量削減、回転位置埋め込みによる32Kコンテキストウィンドウのサポート、Flash Attention 2.0による高速エンコーディングなどの利点を持つ。トークナイザーも一新され、311MモデルにはGemma 3トークナイザーが、97MモデルにはGPT-OSSトークナイザーを基盤とし、コンパクト化された180Kトークン語彙が使用されている。

モデルは、IBMがキュレーションしたデータセット、公開データ、および内部生成データや合成データの混合物で学習された。訓練に使用される公開ウェブ由来データは、IBMが開発した品質、重複排除、ガバナンスプロセスを用いて選別・フィルタリングされており、下流の商業利用におけるリスク低減が意図されている。


参考: Hugging Face Blog (アーカイブ) — 2026年5月4日 17:36 (JST)

原文ハイライト

"Two new Apache 2.0 multilingual embedding models built on ModernBERT"

この記事をシェア
X はてブ LinkedIn