研究論文掲載サイトarXiv cs.CLが2026年6月4日(現地時間)付けで報じたところによると、Sondos Mahmoud Bsharat氏らの研究チームは、人間とAIの共編集によるテキスト変換を評価する新たなベンチマーク「OpAI-Bench」を導入した。AIライティングアシスタントの普及により、文書が純粋な人間またはAI単独の作成物でなく、両者の段階的な共同編集によって生成されるケースが増加している。既存の検出ベンチマークが最終出力に焦点を当てているのに対し、OpAI-Benchは改訂プロセスにおけるAI作成信号の出現や消失を多角的に分析することを目的としている。

この研究は、文書、文、トークン、スパンといった複数粒度での人間からAIへのテキスト変換を研究するための操作ガイド付きベンチマークであるOpAI-Benchの詳細を提示している。人間が作成した文書を起点とし、OpAI-Benchは事前定義されたAIカバーレベルと五つの代表的なAI編集操作の下で、各サンプルに対して九つの順次改訂バージョンを構築する。これにより、四つのドメインをカバーしつつ、複数粒度で完全な作成履歴を保持する。

OpAI-Benchは、八つの文書レベル検出器、七つの文レベル検出器、そして二つのきめ細かいトークン/スパンレベル検出器を用いた包括的な評価をサポートする。実験の結果、AIテキストの検出可能性は、AI編集コンテンツの割合のみならず、編集操作、ドメイン、そして累積的な改訂履歴によっても左右されることが明らかになった。

特筆すべき点として、混合作成の中間バージョンが、完全に人間が作成した文書や大幅にAIが編集した最終バージョンよりも検出が難しい場合が多いことが示された。これは、既存のベンチマークでは見落とされていた非単調な検出パターンを示唆している。OpAI-Benchは、現実的な段階的編集シナリオにおいて、AIアシストによる記述がいつ、どのように検出可能になるかを分析するための管理されたテストベッドを提供する。関連するコードとデータは公開されている。


参考: arXiv cs.CL — 2026年6月5日 02:58 (JST)

原文ハイライト

"mixed-authorship intermediate versions are often harder to detect than both fully human"

この記事をシェア
X はてブ LinkedIn