Hugging Face Blogは2026年6月7日(現地時間)、エージェント型強化学習(RL)のためのツール「OpenEnv」が、よりオープンなプロジェクトとして運営されることを発表しました。OpenEnvは今後、Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI、およびHugging Faceを含む委員会によって調整されます。

OpenEnvは、エージェントがターミナルやブラウザなどの環境と対話できるようにする実行環境を構築するためのツールです。今回の発表は、エージェントのトレーニングの未来をオープンソース化することを目的としています。

OpenEnvプロジェクトは、PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard、Snorkel AIといったAIエコシステムを牽引する組織に支援され、採用されています。

OpenEnvの必要性として、GPT-5.5やOpus 4.8といったモデルがClaude Code、Codex、OpenClaw、Hermesなどのハーネスを使用するようトレーニングされていることが挙げられます。オープンソースモデルでも同様の進歩を目指し、ローカルモデルがハーネスを効果的に使用できるようにトレーニングし、特定のタスクに特化させることで計算資源を節約することが期待されます。

OpenEnvは強化学習環境のための相互運用性レイヤーとして機能し、環境がエージェントによってどのように公開、デプロイ、消費されるかを標準化します。報酬の定義やトレーニングループの動作は規定せず、OpenEnvは共通のソケットとして機能します。実際には、GymnasiumスタイルのAPI(reset()、step()、state())を公開する多くの環境がクライアント/サーバアーキテクチャ上で動作し、OpenEnvを理解するトレーナーは専用コードなしで任意の準拠環境を駆動できます。環境はHTTPやWebSocketなどの標準プロトコルで提供され、Dockerでパッケージ化されます。MCPはファーストクラスシチズンであり、OpenEnv環境はMCPサーバと互換性があり、シミュレーションとプロダクションモードで一貫して動作します。

今後数ヶ月間は、データセットを介したタスクセット(RFC 006)、外部報酬の定義(RFC 007)、継続的なハーネス統合、エンドツーエンドのトレーニングおよび評価例、環境品質とモデル学習への貢献を測定する自動検証(RFC 008)に焦点を当てていく予定です。OpenEnvのコードとRFCはgithub.com/huggingface/OpenEnvで確認できます。


参考: Hugging Face Blog — 2026年6月8日 09:00 (JST)

原文ハイライト

"OpenEnv is becoming even more open, to make the future of training agents open source."

この記事をシェア
X はてブ LinkedIn