Hugging Face Blogは2026年6月6日(現地時間)、第2回Build Small Hackathonのレポートとして、複数の研究機関の異なる小型モデルを統合した金融ドラマシミュレーション「Thousand Token Wood v2」のエンジニアリング詳細を報告した。このプロジェクトでは、OpenAI、OpenBMB、NVIDIA製の小型モデルや、ファインチューニングされたQwenモデルがエージェントとして組み込まれている。
Thousand Token Wood v2は、プレイヤーが影の金融業者Patron of the Woodとなり、利息付き貸付、情報操作、市場操作、賄賂、同盟の仲介などを行うゲームとして再構築された。各AIエージェントは、OpenAIのgpt-oss-20b、OpenBMBのMiniCPM3-4B、NVIDIAのNemotron-Mini-4B、そして筆者自身がファインチューニングしたQwen 0.5Bという、それぞれ異なる研究機関の小型モデルで動作する。
複数の異なるモデルを単一プラットフォームで運用する際の摩擦は、ほとんどがモデリング層ではなくサービング層で発生したことが報告された。具体的には、vLLM (0.22.1) がCUDAツールキットの不足によりモデルロード時に失敗したが、CUDA開発イメージに基づくことで解決した。情報非対称性を確保するため、エージェントが秘密情報を漏洩させないためのファイアウォールをデータフローに組み込み、厳格なテストでそのセキュリティプロパティを検証した。エージェントの永続的な記憶は、プロンプトの肥大化を防ぐため、履歴全体ではなく要約された感情として管理された。
小型モデルは信頼性の高いフォーマットジェネレーターであり、信頼性の低い推論器であるとの見解が示された。そのギャップは、構造化、プロンプティング、少量のファインチューニングによって埋められると結論付けられている。
参考: Hugging Face Blog — 2026年6月7日 04:02 (JST)
原文ハイライト"the friction is almost entirely at the serving layer, not the modeling layer."