arXiv cs.CRが指摘、PDF-LLM変換にセマンティック整合性問題
arXiv cs.CRは6月12日(現地時間)、論文「Semantic Integrity Failures in Document-to-LLM Supply Chains」を発表し、PDFから大規模言語モデル(LLM)への変換プロセスにおいて、ユーザーが監査できない隠れた抽出層がセマンティック整合性問題を引き起こすことを明らかにした。この問題により、単一のドキュメントがLLMによる推論前に二つの異なる意味的ビューを持つ「split-view PDFs」が可能になるとしている。