Microsoftは2026年5月15日(現地時間)、同社のResearch Blogにおいて、AIシステムが多段階の委任型ワークフローで情報に影響を与える可能性に関する研究論文「LLMs Corrupt Your Documents When You Delegate」について、追加の解説記事を公開した。この研究は、長期間にわたる委任型および協調型タスク向けの堅牢な評価方法を開発することを目的としており、制御された評価方法論を使用し、拡張されたワークフロー全体で情報がどの程度維持されるかを検証している。

この研究は、現在のシステムが繰り返しの編集作業で情報の忠実度が低下する可能性を示している。ただし、現在の生産システムは検証ループ、オーケストレーション、ドメイン固有のツールによってこれらの影響を軽減できると指摘した。

本ベンチマークは、委任パターンを調査するための診断ツールであり、モデルの全体的な能力、タスクの成功、またはユーザーの成果を測定するものではないとしている。評価されたdelegated work (委任された作業)とは、ユーザーがシステムにドキュメントやコードなどの重要な成果物への多段階の変更を、ステップ間の人間による検証を制限して実行させる状況を指す。

評価設定では、強力な最先端モデルが20回の委任イテレーションで成果物の忠実度が約19〜34%低下したことが示された。一方で、Pythonワークフローは拡張された委任インタラクションの下で一般的に強い堅牢性を示し、平均で1%未満の劣化だった。

DELEGATE-52というベンチマークは、長期間の委任実行のストレステストとして設計されており、ステップ間の人間による介入が限られた状況に特化している。これは、現実世界のシステムが通常含む監視、検証、ワークフロー構造の全範囲を測定するものではない。研究の主要な意味として、信頼性の高い長期間の委任は、重要な未解決の研究およびエンジニアリング課題であると述べている。


参考: Microsoft Research Blog (アーカイブ) — 2026年5月16日 03:06 (JST)

原文ハイライト

"current production systems can mitigate these effects through verification loops, orchestration, and domain-specific tooling."

この記事をシェア
X はてブ LinkedIn