Thinking Machines、新インタラクションモデル発表リアルタイム音声技術を刷新

Thinking Machines (シンキング・マシーンズ) は5月12日(現地時間)、リアルタイム音声技術を刷新する新たなインタラクションモデルを発表した。Latent Space (レイテント・スペース) が報じたこのモデルは、「Interaction Models: A Scalable Approach to Human-AI Collaboration」と題され、276BパラメータのMixture of Experts (MoE) モデル「TML-Interaction-Small」を基盤としている。12Bがアクティブとなる同モデルは、既存のリアルタイム音声モデルの性能を大きく進展させるもので、同社は以前公開されたGPT 4oのデモをさらに詳細化したデモを披露した。

Thinking Machines (シンキング・マシーンズ) が発表したTML-Interaction-Smallモデルは、エンコーダーフリーの早期融合技術を採用し、画像と音声の処理を200ミリ秒未満で実行する。この処理速度は、MetaのChameleonと類似した水準にある。同社は、BigBench Audio、IFEval、FD-benchといった公式ベンチマークにおいて、GPT-Realtime-2やGemini 3.1-Flashを上回る優れた結果を示した。

さらに、モデルが目指すインタラクティブ性のレベルに対応するため、時間認識、同時通訳、視覚的プロアクティビティといった新しい概念を測定する内部ベンチマークを開発した。これらのベンチマークには、ユーザー指定時刻での発話を測るTimeSpeak、適切なタイミングでの発話を評価するCueSpeak、反復動作の連続的な視覚追跡と計数を測るRepCount-A、そして特定の瞬間に回答が利用可能になるビデオに対して質問に答えるProactiveVideoQAが含まれる。

このモデルの技術的テーマは、リアルタイムインタラクションのためにゼロから学習されたモデルであるという点にある。これは、ターンベースのLLM（大規模言語モデル）に音声、ターンテイキング、ツール使用を重ねる従来の一般的なアプローチとは一線を画す。チームメンバーは、人間とAI間の帯域幅問題としてこれを捉え、モデルが同時に聞き、話し、見て、考え、検索し、反応できるべきだと説明した。発表デモでは、連続的な時間認識、割り込み処理、同時発話、視覚的プロアクティビティ、そして明示的な境界のないバックグラウンドでのツール使用が強調された。関係者からは、これが単なる「別のチャットボットのデモ」ではなく、インターフェースの前提を変えるものであるとの見方も示されている。同社のロードマップには、バックグラウンドエージェントとインタラクティブモデルの組み合わせが含まれている。

参考: Latent Space (アーカイブ) — 2026年5月12日 13:33 (JST)