Al-Mawridアラビア語-英語辞書デジタル化手法、ISOとTEI活用でLLM基盤強化へ

arXiv cs.CLは2026年6月16日(現地時間)、ディア・ファイド氏とローラン・ロマリ氏らが、歴史あるAl-Mawrid (アルマワリド) Arabic-English dictionaryの系統的なデジタル化とエンコーディングに関する堅牢な手法を発表しました。本研究は、既存のアラビア語語彙インフラの不足に対応するため、ISO Lexical Markup Framework (LMF)とText Encoding Initiative (TEI) Lex-0ガイドラインを整合させる二重標準フレームワークを採用。複雑なレガシー辞書のデジタル変換における構造的曖昧さを解消し、機械可読なリソースとして多言語自然言語処理（NLP）基盤を強化する戦略的な意義を持つものです。

この手法は、レガシーな印刷物であるAl-Mawrid Arabic-English dictionaryを、標準化された計算語彙へと変換することを目指しています。研究では、辞書のマクロ構造とミクロ構造に編集的視点を適用することで、20世紀のバイリンガル辞書に典型的な構造的曖昧さや句読点の不整合を解消。これにより、人力によるデジタル化の負担を軽減しつつ、高品質な語彙リソースの構築を可能にするとしています。

本研究は、辞書の語彙知識密度に関する経験的分析に基づいており、代表サンプルである文字Ayn（総ボリュームの4.6%）を用いてエンコーディングプロセスに科学的根拠を提供しています。構造解析精度は91%を示しました。情報抽出ルールの定量的評価では、類義語で適合率85%、再現率98%を達成し、その他の形態意味的特徴では適合率88%を示しており、その有効性が実証されました。

論文は、既存のアラビア語語彙資源との比較に加え、Text Encoding Initiative (TEI) Lex-0が、暗黙的なオープンセット意味関係や散在する形態学的手がかりといった特定のアラビア語現象をモデル化する際の限界についても議論しています。さらに、スケーラブルなプレフィックスベースの参照システムを確立することで、Linguistic Linked Open Data統合の可能性も探求。これにより、セマンティックウェブへのリソースの組み込みが促進され、アラビア語自然言語処理およびデジタル人文科学コミュニティにおいて、複雑なレガシーバイリンガル語彙のレトロデジタル化に対する再現可能なワークフローを提供する、相互運用可能で機械処理可能なリソースとなるものです。

この研究は、大規模言語モデル（LLM）の発展が加速する現代において、特に低資源言語であるアラビア語の基盤語彙整備に戦略的な意義を持ちます。既存のデジタル化されたアラビア語語彙資源（例: Arabic WordNet）は存在するものの、網羅性や構造化の課題を抱えています。本手法は、Al-Mawrid Arabic-English dictionaryのような大規模かつ歴史的な辞書を標準化された形式でデジタル化することで、LLMの事前学習データセットの質と量を向上させ、アラビア語に特化したLLMの精度向上に寄与すると期待されます。また、このアプローチはアラビア語にとどまらず、構造が複雑でデジタル化が遅れている他の言語のレガシー辞書にも応用可能であり、多言語対応LLMの進化を支える重要なインフラ整備に繋がるものとみられます。

参考: arXiv cs.CL — 2026年6月17日 02:35 (JST)