Hugging Faceは6月25日(現地時間)、同社のHugging Face Jobs上で、vLLMサーバーを単一コマンドで迅速に起動できる新機能を発表しました。この導入により、ユーザーはHugging Faceのインフラストラクチャを活用し、プライベートなOpenAI互換の**大規模言語モデル(LLM)**エンドポイントを効率的に展開・運用できるようになります。利用料金は秒単位の従量課金制です。
この新機能は、サーバーのプロビジョニングやKubernetesの管理が不要となり、ユーザーはテスト、評価、バッチ生成といった目的でモデルを素早く立ち上げることが可能となります。展開されたモデルには、ローカル環境やノートブックから直接クエリを実行できます。
利用を開始するには、Hugging Faceアカウントでの支払い方法設定、「huggingface_hub」ライブラリのバージョン1.20.0以上、およびローカル環境でのHugging Face認証が必要です。サーバーの起動は「hf jobs run」コマンドを使用し、GPUフレーバーやポートを指定します。具体的な例として、「a10g-large」フレーバーとvllm/vllm-openai:latestイメージを用いて「Qwen/Qwen3-4B」モデルを稼働させる方法が示されています。
vLLMはOpenAI APIと互換性があり、Hugging FaceトークンをBearerトークンとして利用することで、「curl」やPythonのOpenAIクライアントから簡単にクエリを実行できます。このエンドポイントはゲートされており、ジョブのネームスペースに対する読み取りアクセス権を持つHugging Faceトークンが認証に必要です。大規模モデルの運用にも対応しており、より高性能なGPUフレーバーと—tensor-parallel-sizeオプションを組み合わせることで、「H200x2」フレーバーでQwen/Qwen3.5-122B-A10Bのようなモデルも展開できるとされています。課金は秒単位で行われるため、使用終了時には「hf jobs cancel」コマンドでサーバーを停止することが推奨されています。
参考: Hugging Face Blog (アーカイブ) — 2026年6月26日 09:00 (JST)
原文ハイライト"run a vLLM server on HF Jobs in one command"