arXiv cs.AI は2026年5月19日(現地時間)、研究レベルの数学問題解決に特化したエージェント型フレームワーク「Research Math Agents (RMA)」を発表した。RMAは、長期間にわたる推論、文献に基づく根拠付け、および反復的な証明精製を必要とする高度な数学問題の自動推論を目指す。専門家による評価の結果、RMAは「First Proof」ベンチマークにおいて、GPT-5.2Rを含む既存の強力なベースラインを上回り、10問中8問の研究問題を解決し、論理的に健全で読みやすい証明を生成した。

研究レベルの数学問題解決に特化したエージェント型システムResearch Math Agents (RMA)は、その複雑な証明プロセスを複数の専門モジュールに分解することで、高難度の問題に対応する。具体的には、問題の構造を分析する「問題分析」、関連する既存の文献を検索し理解する「文献検索と理解」、提案された解決策を公平に評価する「公正な比較」、獲得した知識を集約する「知識バンク構築」、および生成された証明の妥当性を確認する「証明検証」の各モジュールが密接に連携する。

これらのモジュールは、システム内で中核的な役割を担う三つのエージェント、すなわちinitializer(初期化エージェント)、proposer(提案エージェント)、およびverifier(検証エージェント)によって調整される。各エージェントは共有される構造化メモリを通じて情報を受け渡し、互いのタスクを補完し合うことで、全体としての効率性と正確性を高めている。

RMA内のエージェントは、この統合フレームワークの中で、マルチロールおよびマルチラウンドのワークフローで機能する。これにより、候補となる証明を協調的に生成し、反復的なフィードバックループを通じて継続的に精製し、最終的にその妥当性を検証する。この反復プロセスは、人間が数学の証明を練り上げていく過程を模倣しており、複雑な問題に対する堅牢な解決策を導き出すことを可能にする。

RMAの評価は、「First Proof」と名付けられたベンチマークで実施された。このベンチマークは、多様な分野の専門数学者が寄稿した10問の研究レベル問題で構成されており、AIシステムが直面する実際の研究課題を忠実に再現している。RMAは、この厳しい評価基準において、GPT-5.2RやAletheiaといった既存の強力なベースラインを凌駕し、与えられた10問中8問の研究問題を解決した。その結果として生成された証明は、論理的に健全であるだけでなく、人間が理解しやすい高い可読性を持つことが確認されている。

広範なアブレーション研究の結果は、RMAの優れた性能が単一のコンポーネントに起因するものではなく、構造化された推論モジュール、反復的な精製プロセス、および検証者に基づくフィードバックという、複数の要素の相互作用によるものであることを明確に示した。この研究は、各要素がどのように貢献しているかを詳細に分析し、システムの全体的な堅牢性と効率性に対するそれぞれの重要性を浮き彫りにしている。RMAのソリューションと実装の詳細は、論文受理後に公開される予定だ。


参考: arXiv cs.AI — 2026年5月25日 13:00 (JST)

原文ハイライト

"RMA outperforms strong baselines on the First Proof benchmark"

この記事をシェア
X はてブ LinkedIn