Googleは2026年6月26日(現地時間)、既存のGemini Nano v3モデルに対し、Multi-Token Prediction (MTP)と呼ばれる新しいアーキテクチャを適用することで、オンデバイス推論を高速化する手法を発表した。この技術は、Pixel 9および10シリーズに既に導入されており、AI Notification SummariesやProofreadといったデバイス上のAI機能の実行速度とエネルギー効率を向上させる。
モバイルデバイスは厳格な電力予算とメモリ制限の下で動作するため、言語モデルがトークンを一つずつ生成する従来の「autoregressive」な処理はボトルネックとなっていた。この課題に対応するため、GoogleはMTPを導入した。MTPは、従来の投機的デコーディングが用いる独立したドラフターモデルが抱えるメモリ競合や内部状態の欠如といった非効率性を解消する。
MTPアーキテクチャでは、メインモデルの最終層に軽量なMTPヘッドを付加する。このMTPヘッドは、メインモデルが既に処理した高次元のアクティベーション(hidden states)とキーバリュー (KV) キャッシュを直接活用することで、独立したドラフターモデルの必要性を排除する。特に、既にデプロイされ、重みが固定された(frozen)Gemini Nano v3モデルに対し、MTPヘッドのパラメータのみを訓練することで、ベースモデルの性能や安全性を損なうことなく効率化を実現している。最終出力はメインモデルとビット単位で一致する。
zero-copy architectureの採用により、MTPヘッドはメインモデルのKVキャッシュを共有するため、独自のキャッシュを維持する必要がない。これにより、ドラフターモデルが個別にキャッシュを生成・維持することで発生する最大130MBのメモリ消費とプリフィル遅延を削減する。実験では、MTPドラフターはより正確なトークン予測を継続的に行い、Pixel 9デバイスにおいてタスクに応じて50%以上の速度向上が確認された。また、AI Notification SummariesやProofreadといった本番ワークロードでは、推論パスあたり平均でほぼ2トークン追加で正確に予測し、エネルギー消費の削減とバッテリー寿命の向上に寄与している。Googleは将来のPixelデバイスへのMTP統合も視野に入れている。
参考: Google Research Blog (アーカイブ) — 2026年6月27日 03:30 (JST)
原文ハイライト"Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction"