Aryuemaan Kumar Chowdhury氏らの研究チームは7月1日(現地時間)、既存のどのモデルファミリーとも構造的な関連性を持たない全く新しいSmall Language Model (SLM) アーキテクチャ「Wiola (ワイオラ)」を発表した。Wiolaは、効率的なSLMの実現に向けて、5つの独自コンポーネントを導入している。
Wiolaは、GPT、LLaMA、Mistral、Falconといった既存の主要モデルファミリーとは一線を画す、独自の設計思想に基づいて構築されている。
このアーキテクチャは、以下の5つの新規コンポーネントで構成される。
- スパイラル・ロータリー位置エンコーディング (Spiral Rotary Positional Encoding, SRPE): トークンの位置情報を、絶対的、相対的、階層的な信号を組み合わせた三次元のらせん状多様体上に埋め込む。
- ゲート付きクロスレイヤー・アテンション (Gated Cross-Layer Attention, GCLA): 各デコーダー層が先行する2つの層の圧縮サマリーに対し、ソフトなクロスアテンションアクセスを可能にし、層間のコヒーレンスを高める。
- 適応型トークン・マージング (Adaptive Token Merging, ATM): ネットワークの中間層で意味的に冗長な隣接トークンを動的に統合し、情報損失なしにアテンションの複雑さを低減する。
- デュアルストリーム・フィードフォワード (Dual Stream Feed-Forward, DSFF): 従来の多層パーセプトロン (Multi-Layer Perceptron, MLP) に代わり、学習された次元ごとのゲートによって融合される2つの並列ストリームを用いる。
- WiolaRMSNorm (ワイオラRMSノーム): 次元ごとの学習済みオフセットベクトルを導入することで表現の崩壊を防ぐよう修正された正規化手法である。
研究チームは、Wiolaの完全な数学的導出、アーキテクチャブロック図、複雑性分析を提供している。また、GPT-2、LLaMA-2、Mistralといった既存モデルとの体系的な比較も行った。
Wiolaは、120M、360M、700M、1.5Bパラメータの4つのサイズで公開されており、HuggingFace Transformersエコシステムと完全に互換性がある。全ての22のアーキテクチャユニットテストに合格している。
参考: arXiv cs.AI (アーカイブ) — 2026年7月3日 13:00 (JST)
この記事をシェア