Google DeepMindは6月3日(現地時間)、ノートPC上で高性能なマルチモーダルインテリジェンスを実現する新モデル「Gemma 4 12B」を発表した。このモデルは、エッジ向けE4Bと高度な26B MoEの中間に位置する性能を目指し、メモリ使用量を抑えつつ強力な機能を搭載。エンコーダーフリーのアーキテクチャによりレイテンシとメモリ消費を大幅に削減し、同社ミッドサイズモデルとして初めてネイティブオーディオ入力に対応した詳細が明らかになった。

「Gemma 4 12B」は、同社のより大規模な26B MoEモデルに匹敵する性能を標準ベンチマークで示す一方、総メモリ使用量は半分以下に抑えられている。16GBのVRAMまたは統合メモリを備える一般消費者向けノートPCでのローカル実行が可能であり、マルチモーダルおよびエージェントの体験を直接マシン上で実現する。

このモデルの最大の特徴は、統一されたアーキテクチャにある。従来のマルチモーダルモデルが画像や音声を言語モデルに渡す前に別個のエンコーダーを利用していたのに対し、「Gemma 4 12B」はエンコーダーフリーのアーキテクチャを採用し、画像と音声の入力をLLMバックボーンに直接統合。これにより、レイテンシの削減とメモリ使用量の低減を達成している。

具体的には、ビジョンエンコーダーを単一の行列乗算、位置エンベディング、正規化からなる軽量な埋め込みモジュールに置き換え、LLMバックボーンが視覚処理の大部分を担う。オーディオ処理においては、オーディオエンコーダーを完全に削除し、生のオーディオ信号をテキストトークンと同じ次元空間に直接投影する仕組みが採用された。

さらに、本モデルはMulti-Token Prediction (MTP) ドラフターを搭載し、レイテンシを低減。Apache 2.0ライセンスで公開されており、LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app、LiteRT-LM CLIなどで試用が可能だ。事前学習済みおよび命令チューニング済みのチェックポイントはHugging FaceとKaggleからダウンロードできる。

開発者はHugging Face Transformers、llama.cpp、MLX、SGLang、vLLMといったツールでローカル推論パイプラインを実装でき、Unslothで効率的なファインチューニングが行える。エージェント開発を支援するため、Gemmaモデルでエージェントを構築するためのスキルライブラリSkills Repositoryも公式にリリースされた。デプロイはGoogle Cloudを通じて、Gemini Enterprise Agent PlatformからModel Garden、Cloud Run、GKEでエンドポイントを立ち上げることが可能だ。これまでに、Gemma 4モデル群は1億5000万回以上のダウンロード数を記録している。


参考: DeepMind Blog — 2026年6月3日 09:00 (JST)

原文ハイライト

"Gemma 4 models have now crossed 150 million downloads"

この記事をシェア
X はてブ LinkedIn