会話記憶と長文書推論を同時評価する新ベンチマーク「MemoryDocDataSet」発表

arxiv.orgは6月3日(現地時間)、Qiyang Xie氏らが、マルチセッション会話履歴のナビゲーションと長文書の精読を同時に要求する初のベンチマーク「MemoryDocDataSet（メモリードックデータセット）」を発表したと報じた。従来のベンチマークではこれらの能力を同時に評価する手法がなく、本データセットは新しい課題を提示する。初期評価の結果、現在のモデルがこの複合タスクにおいて大幅な性能低下を示すことが明らかになった。

このMemoryDocDataSetは、50のマイクロワールドと1,000の質問応答ペアで構成される合成ベンチマークである。各インスタンスには、3〜5のペルソナ、数カ月にわたる時系列イベントグラフ、Caselaw Access Project（ケースロー・アクセス・プロジェクト）から取得した各20,000〜50,000トークンの実際の長文書3〜5点、それらの文書に基づいたマルチセッション会話、そして5つの推論カテゴリにわたる20の質問応答ペアが含まれる。

本データセットの最大の特徴はHybrid source tagを持つ質問群だ。これは、システムがまず会話履歴をナビゲートして関連文書を特定し、その文書内から回答を抽出することを要求する。Hybrid質問はデータセット全体の75.1%を占める。

研究チームは、truncated context、long-context LLMs、retrieval-augmented generation（RAG）、memory systemsを含む6つのベースライン構成で評価を実施した。最良のベースラインである「RAG-Both」は、全体のF1スコアで0.358、Hybrid質問では0.342を達成した。一方、文書のみの検索を行う「RAG-Doc」は、Doc-only質問で0.453を達成したものの、Hybrid質問では0.267に低下した。この結果は、会話記憶と長文書ナビゲーションを統合する新たなアーキテクチャが必要であることを示す明確な共同検索ギャップを実証している。研究チームは、データセット、生成パイプライン、および全てのベースライン実装を公開している。

参考: arxiv.org (アーカイブ) — 2026年6月3日 09:00 (JST)