オンラインプレプリントリポジトリarXiv cs.AIは2026年6月2日(現地時間)、シェリン・マカティラ氏 (Sherin Muckatira)らが、クラウドソース型の数学研究議論データセット「CrowdMath」を発表したと報じた。本データセットは、MIT PRIMES--Art of Problem Solving (AoPS) CrowdMath プログラム (2016-2025年) から収集された、専門家によって注釈付けされた164件の進行チェーンで構成される。

本データセットは、大規模言語モデル (large language models) が数学的推論において大きな進歩を遂げたものの、既存のベンチマークが通常、明確に定義された問題や最終的な解答、段階的な解決策、または完全な証明を評価するにとどまっている現状に対応する。

「CrowdMath」は、参加者が部分的な議論を提案し、先行する段階でのギャップやエラーを特定し、欠陥のある推論を修正し、段階的な貢献を徐々に統合して証明を構築するような、共同でのオープン問題解決の場面を捕捉する。各チェーンは、オープン問題の記述から完全な証明に至るまでの多人数参加型フォーラムの議論を追跡。投稿には、部分的な進捗、証明の完了、誤った推論、エラーの特定など、解決プロセスにおける機能的な役割がラベル付けされている。

研究チームは評価タスクを定義し、6つのフロンティアモデルをベンチマーク評価した。モデルは次投稿予測において83〜88%の精度を達成し、数学的議論の局所的な流れを追う能力を示唆した。しかし、個々の貢献の機能的意義を特定することには苦戦し、最良のモデルでも投稿役割分類において0.42のmacro-F1スコアにとどまった。「CrowdMath」は、明確に定義された数学問題を解くことと、展開される共同数学的進捗を理解することの間にギャップがあることを示している。

本論文は、シェリン・マカティラ氏 (Sherin Muckatira)、ジェシー・ジェネソン氏 (Jesse Geneson)、スラヴァ・ゲロヴィッチ氏 (Slava Gerovitch)、パベル・エティンゴフ氏 (Pavel Etingof)、ミハイル・グロナス氏 (Mikhail Gronas)、アンナ・ラムシスキー氏 (Anna Rumshisky)の6名によって執筆された。


参考: arXiv cs.AI — 2026年6月8日 13:00 (JST)

この記事をシェア
X はてブ LinkedIn