【速報】Hカンパニー、Holo3.1ファミリーを発表ローカル推論と幅広い環境に対応

Hカンパニー (Hcompany) は2026年6月1日(現地時間)、コンピュータ利用モデル「Holo3」の次世代版となる「Holo3.1」ファミリーを発表した。この新モデル群は、ウェブ、デスクトップ、モバイルといった幅広い環境、多様なエージェントフレームワーク、そしてクラウドからエンドユーザーデバイスまでのデプロイメントターゲットにおいて、堅牢性の向上を図る。特にローカル推論に最適化された量子化済みチェックポイントの提供を開始した。

Holo3.1は、プロダクション環境で重要となる環境（ウェブ、デスクトップ、モバイル）、エージェントフレームワーク、デプロイメントターゲットの3つの次元で堅牢性を改善した。ローカル推論用に最適化されたFP8、Q4 GGUF、NVFP4を含む量子化済みチェックポイントを初めてリリースする。

既存のHolo3の能力を拡張し、モバイル環境での大幅な性能向上を実現した。例えば、AndroidWorldベンチマークにおいて、35B-A3Bモデルは67%から79.3%に、より小さい4Bおよび9Bモデルは58%から72%に改善した。また、サードパーティのエージェントスタック内での展開を支援するため、Holo3に既に搭載されている構造化JSON出力に加え、関数呼び出しプロトコルをネイティブでサポートする。OSWorldおよび社内ベンチマークスイートでは、関数呼び出しとネイティブ実行がほぼ同等の性能を達成した。

さらに、ローカルおよびオンデバイスでの推論を可能にするため、0.8B、4B、9Bといった小型モデルを新たに追加した。これにより、コスト効率とプライベートなデプロイメントを実現する。量子化されたウェイトは高速なローカル推論を可能にし、モデル性能の低下は最小限に抑えられている。DGX Sparkでの測定では、NVFP4 W4A16はFP8の1.41倍、BF16の1.74倍のトークンスループットを実現した。

コンシューマーハードウェアでのローカルエージェント展開を目指し、WindowsまたはMacマシンでローカルに実行可能なQ4 GGUFチェックポイントも提供する。Apple Siliconでのリファレンス数値も公開されており、NVIDIAとの協業による最適化により、DGX Spark上でFP8ベースラインと比較して約2倍のエンドツーエンドの速度向上が報告されている。

Holo3.1ファミリーは、Holo3.1-0.8B、Holo3.1-4B、Holo3.1-9B、Holo3.1-35B-A3Bの4つのサイズで提供される。最適化されたFP8、NVFP4、Q4 GGUFチェックポイントもローカルおよびエッジデプロイメント向けに利用可能となっている。

参考: Hugging Face Blog — 2026年6月2日 13:33 (JST)