会話記憶と長文書推論を同時評価する新ベンチマーク「MemoryDocDataSet」発表
arxiv.orgは6月3日(現地時間)、Qiyang Xie氏らが、マルチセッション会話履歴のナビゲーションと長文書の精読を同時に要求する初のベンチマーク「MemoryDocDataSet(メモリードックデータセット)」を発表したと報じた。従来のベンチマークではこれらの能力を同時に評価する手法がなく、本データセットは新しい課題を提示する。初期評価の結果、現在のモデルがこの複合タスクにおいて大幅な性能低下を示すことが明らかになった。