Hugging Faceは2026年5月27日(現地時間)、ブログを通じて、ロボット「Reachy Mini」の会話アプリケーションを完全にローカルで実行できるようになったと発表した。これにより、オーディオデータが外部サーバーに送信されることなく、全ての処理がユーザーのデバイス上で完結する。クラウドサービスやAPIキーは不要となる。
Reachy Miniの会話アプリケーションでは、これまでオーディオをサーバーに送信する必要があったが、今後はそのスタック全体をローカルで実行できる。このスタックは、VAD(Voice Activity Detection)、STT(Speech-to-Text)、LLM(Large Language Model)、TTS(Text-to-Speech)を連結したspeech-to-speechライブラリのパイプラインで動作する。
推奨されるコンポーネントとして、LLMにはllama.cppとGemma 4、VADにはSilero VAD、STTにはParakeet-TDT 0.6B v3、TTSにはQwen3-TTSが挙げられている。このローカル実行は、プライバシー保護、APIコストの削減、そしてパイプラインの各コンポーネントに対する完全な制御を可能にする。ユーザーはオーディオデータを自身のネットワーク外に出すことなく、ハードウェア上で全ての処理を実行できる。
LLMはシステムの遅延に最も影響を与える層であり、ローカルでのモデル実行にはllama.cpp、MLX、Transformers、vLLMなどがサポートされる。また、Responses APIを介してOpenAI、Gemini、Hugging Face Inference Endpointsなどの外部推論エンジンも利用可能で、これによりLLMの推論を音声ループから分離し、遅延を軽減する。
参考: Hugging Face Blog (アーカイブ) — 2026年5月27日 21:29 (JST)
原文ハイライト"No cloud, no API keys, no data leaving your machine."