Hugging Faceは2026年5月18日(現地時間)、Ettin Rerankerファミリーを発表した。この発表は、Sentence Transformers CrossEncoder rerankerの新作であり、6種類のモデルが提供される。各サイズで最先端の性能を持つこれらのモデルは、Ettin ModernBERTエンコーダーを基盤に構築されている。データセットと完全なトレーニングレシピも同時に公開された。

トム・アーセン (Tom Aarsen) 氏が発表したこれらのモデルは、cross-encoder/ettin-reranker-17m-v1からcross-encoder/ettin-reranker-1b-v1までの6種類で構成される。これらは、lightonai/embeddings-pre-training と lightonai/embeddings-fine-tuning の再ランキングされたサブセットを混合したcross-encoder/ettin-reranker-v1-dataのスコアに対し、ポイントワイズMSE蒸留レシピを用いてトレーニングされた。

リランカー(別名ポイントワイズ・クロスエンコーダー)は、クエリとドキュメントのペアを受け取り、単一の関連性スコアを出力するニューラルモデルである。高速な埋め込みモデルで上位候補を検索し、その後リランカーでそれらの候補を高い精度で再順序付けするretrieve-then-rerankパターンでの使用が想定されている。Ettin ModernBERTエンコーダーの長文コンテキスト事前学習により、最大8Kトークンのコンテキストをサポートする。

これらのモデルは、Sentence TransformersのCrossEncoderモデルとして利用可能であり、特定のパラメータを設定することで、デフォルトのロードと比較してモデルサイズとシーケンス長に応じて1.7倍から8.3倍の高速化が見込まれる。トレーニングレシピは、Sentence Transformers v5.5.0に搭載されたtrain-sentence-transformers Agent Skillを活用してブートストラップされた。


参考: Hugging Face Blog (アーカイブ) — 2026年5月19日 13:59 (JST)

原文ハイライト

"six new Sentence Transformers CrossEncoder rerankers, state-of-the-art at their respective sizes"

この記事をシェア
X はてブ LinkedIn