Kirill Solovev(キリル・ソロベフ)氏とJana Lasser(ヤナ・ラッサー)氏は2026年6月25日(現地時間)、学術リポジトリarXivに論文を公開し、多言語に対応した共同エンティティ・関係抽出パイプラインを提案した。このパイプラインは、大規模な非構造化ニュースコーパスから、署名付きで時間的要素を持つ知識グラフを構築するモジュール式のオープンウェイトシステムである。政治エリート間の複雑な非公式な結びつきを大規模に分析するための、従来の課題解決を目指す。
このパイプラインは、スパンベースの固有表現認識(NER)と、言及を言語非依存のWikidata識別子にマッピングする3段階のリンキングカスケードを組み合わせている。さらに、高スループットでオントロジーに制約された混合エキスパートモデルが、ドメインオントロジーに基づいて指向性のある署名付き関係を抽出するため、ガイド付きデコーディングを使用する。
3491件の関係ゴールドスタンダードに対する網羅的なスポットチェックでは、厳密な基準で68.2%、緩やかな基準で93.7%という高いテキスト正確性を示した。
二つの大規模なケーススタディが、このパイプラインの有効性を検証した。オーストリア(Austria)では、政治政党の完全なライフサイクルが再構築され、内部の分裂の時期特定や、後継派閥への人事追跡、裁判での有罪判決の追跡が行われた。ポーランド(Polish)のコーパスでは、国営企業の縁故主義による重複する経済およびガバナンスネットワークが明らかにされたほか、二極化した与党連合市民プラットフォーム(Civic Platform, PO)と野党法と正義(Law and Justice, PiS)間の、構造的にバランスの取れた署名付きの紛争ネットワークが解明された。
本フレームワークは、多言語の生テキストと構造化された関係データを橋渡しすることで、国境を越えた実証計算社会科学のための堅牢で再現可能な基盤を提供するとされる。
参考: arXiv cs.CL (アーカイブ) — 2026年6月26日 02:51 (JST)
原文ハイライト"a modular, fully open-weight pipeline for multilingual joint entity-relation extraction"