核融合プラズマ制御、オフラインRLに新ベンチマーク「RL4F」発表

arXiv cs.LGは2026年5月19日(現地時間)、核融合におけるプラズマ制御のための新しいオフライン強化学習（RL）ベンチマーク「RL4F」を導入したと報じた。実際の核融合装置を用いたプラズマ制御実験は、多大なコストと運用上のリスクを伴うため、データに基づいた効率的なコントローラー開発が求められている。この課題に対応するため、RL4Fは、過去に蓄積されたトカマク運転データからプラズマコントローラーを開発するオフラインRL手法の進捗を客観的に評価する基準を提供する。これまで、この分野ではアルゴリズムの性能を統一的に評価する標準化されたベンチマークが不足しており、開発の進捗測定と手法間の比較が困難であった。RL4Fは、閉ループ評価が可能な環境に加え、プラズマの回転、密度、温度、圧力という主要な4つのプロファイルを追跡するタスクを設定し、複数のベースライン手法による比較評価の枠組みを提供する。

RL4Fによって提供される評価環境のプラズマダイナミクス機能は、実世界で稼働するトカマク装置「DIII-D」で過去に実施された放電実験のデータから構築されている。これにより、研究者は実際の物理現象に近い条件下でアルゴリズムを評価することが可能となる。研究チームは、統一された評価プロトコルに基づき、模倣学習（Imitation Learning）とオフラインRLの幅広いベースラインアルゴリズム群の性能を評価した。この評価は、オフラインRLにおける既存手法の強みと弱みを体系的に理解することを目的としている。

広範な評価の結果、オフラインのモデルベースRL手法が、ほとんどの評価目的において最高の平均性能を達成することが明らかになった。これは、プラズマの複雑な挙動を予測するモデルを構築し、そのモデルを利用して学習を進めるアプローチが、特に多種多様なプラズマ状態に対応する上で有効であることを示唆している。しかしながら、単一のオフラインRL手法が全てのプラズマ制御タスクにおいて絶対的な優位性を示すわけではないことも判明した。この結果は、核融合プラズマ制御のような複雑かつ長期間にわたるダイナミクスを持つタスクにおいて、正確かつ頑健なダイナミクスモデリングがいかに重要であるかを改めて浮き彫りにした。

本研究のさらなる促進と、核融合コミュニティにおける協調的な研究開発を支援するため、RL4Fのコードベース、大規模なデータセット、および評価フレームワークはオープンソースとして公開された。これにより、核融合分野の研究者だけでなく、汎用的なオフラインRLアルゴリズムの開発に携わる研究者にも、実世界に近い複雑な環境でのアルゴリズム評価と改善のための標準的なベンチマークが提供される。核融合研究においては、オフラインRLの進展がプラズマの安定化と制御精度の向上に貢献し、実用的な核融合炉実現に向けた重要な一歩となることが期待されている。本研究は、Yang Fu（ヤン・フー）氏を中心に、計7名の著者によって実施された。

参考: arXiv cs.LG — 2026年6月9日 13:00 (JST)