Zyphraは2026年5月7日(現地時間)、推論に特化した混合エキスパートモデル (MoE)「ZAYA1-8B」の技術レポートを発表した。同モデルは7億のアクティブパラメーターと80億の総パラメーターで構成され、ZyphraのMoE++アーキテクチャを基盤としている。AMDのコンピューティングプラットフォームで訓練され、10億未満のアクティブパラメーターながら、数学やコーディングのベンチマークでDeepSeek-R1-0528を上回る、または同等の性能を示したと報告されている。
ZAYA1-8Bは推論に焦点を当ててゼロから訓練されており、事前訓練の段階から推論データが組み込まれている。核となる事前訓練、中間訓練、教師ありファインチューニング (SFT) は、AMDのフルスタックコンピューティング、ネットワーキング、ソフトウェアプラットフォーム上で実施された。
ポストトレーニングには4段階の強化学習 (RL) カスケードが用いられている。これには、数学とパズルに関する推論ウォームアップ、400タスクからなるRLVE-Gymカリキュラム、テスト時計算トレースと競技プログラミングリファレンスから構築された合成コード環境を用いた数学とコードのRL、チャットと指示追従のための行動RLが含まれる。また、同社はMarkovian RSAというテスト時計算手法も導入した。この手法は、並列推論トレースを再帰的に集約し、各ラウンド間で境界長の推論テールのみを引き継ぐものとされている。
TTC評価では、Markovian RSAによりZAYA1-8BはAIME’25で91.9%、HMMT’25で89.6%のスコアを達成し、Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-Highといったより大規模な推論モデルとの差を縮めたとされている。
参考: arXiv cs.AI — 2026年5月8日 13:00 (JST)
原文ハイライト"reasoning-focused mixture-of-experts (MoE) model with 700M active and 8B total parameters"