#大規模言語モデル関連記事

ジョイ・ボーズ氏、インド哲学比較コーパス「Darshana Graph」公開

ジョイ・ボーズ (Joy Bose) は6月16日(現地時間)、古典インド哲学の比較分析に特化した大規模な並列注釈コーパス「ダルシャナ・グラフ (Darshana Graph)」を発表した。同コーパスは、ヒンドゥー教、仏教、ジャイナ教の伝統に属する12万5,000件以上のテキスト記録で構成される。特に、8,500件のヒンドゥー教およびジャイナ教の記録は、18人の歴史的注釈者が同一の根本経典やスートラをどのように解釈したかを比較できるよう構造化されている。

リサーチ・論文 6月14日 23:15

DeepMind、高速テキスト生成モデル「DiffusionGemma」を発表

DeepMindは2026年6月9日(現地時間)、テキスト拡散技術を応用した実験的オープンモデル「DiffusionGemma」を発表した。このモデルはApache 2.0ライセンスで提供され、従来の自動回帰型大規模言語モデル（LLM）の逐次処理と異なり、テキストブロック全体を同時に生成する。これにより、GPU環境下で最大4倍の高速なテキスト生成を実現し、速度が重視されるインタラクティブなローカルワークフローへの活用が期待される。

リサーチ・論文 6月9日 11:25

大規模言語モデルの誤答抑制へ、「未知の未知」診断SICsで精度向上

米学術機関リポジトリarXiv cs.CLは2026年6月7日(現地時間)、大規模言語モデル(LLM)が自身の知識の範囲外にある質問に対し、知らないことを認めずに誤った回答を生成する課題に対処する研究論文を公開した。Subramanyam Sahoo氏が導入した「Structured Ignorance Certificates (SICs、構造化無知証明書)」は、モデルに不足する知識領域を特定させ、関連概念を列挙し、直接回答ではなく有効な検索クエリを提案させるJSON形式の出力スキーマである。735の「Unknown-Unknown (UU、未知の未知)」質問による評価では、99.46%のJSON有効性率と0.967の平均Certificate Specificity Scoreを達成。ベースモデル比でROUGE-Lが3.6%改善された。

リサーチ・論文 6月7日 03:17 注目

大規模言語モデル基盤マルチエージェントシステム、通信を効率化するPACTプロトコル

Chen Huang氏、Yuhao Wu氏、Wenxuan Zhang氏らは6月3日(現地時間)、大規模言語モデル（LLM）を基盤としたマルチエージェントシステム（MAS）において課題となっていたエージェント間通信の非効率性を解決する新たなプロトコル「PACT（Protocolized Action-state Communication and Transmission）」を開発・発表した。このプロトコルは、エージェントの出力情報をコンパクトな行動状態記録に変換することで、トークン使用量を大幅に削減。これにより、システム性能を維持しつつ推論コストを低減し、既存の課題となっていたトレードオフを改善する。

リサーチ・論文 6月8日 19:22

大規模言語モデル駆動エージェント社会の長期シミュレーション「Agentopia」発表

Xintao Wang氏らは6月5日(現地時間)、大規模言語モデル(LLM)が駆動するエージェントによる長期的な社会生活シミュレーション「Agentopia」に関する研究論文を学術論文公開サイトarXiv cs.CLで発表した。本研究は、従来のAIエージェント社会シミュレーションが抱える期間や相互作用の制約を克服し、LLM搭載エージェントによる現実的で複雑な社会的行動の創発と、人間の社会生活における学習プロセスの再現を目指している。

リサーチ・論文 6月4日 03:20

LLMの構造化推論を視覚グラフで支援、整理能力向上に新たな知見

arXiv cs.AIは2026年6月2日(現地時間)、「Visual Graph Scaffolds for Structural Reasoning in Large Language Models」と題する論文を発表した。この研究は、大規模言語モデル (LLM) が複雑な構造化推論を行う際、グラフが単なる外部知識源としてだけでなく、推論プロセスを整理する内部的な足場 (スキャフォールド) としても機能する可能性を示唆している。人間がマインドマップを用いて思考を整理する仕組みから着想を得ており、LLMの推論能力向上に新たな視点を提供する。

リサーチ・論文 6月4日 11:26

大規模言語モデル、環境態度で人間上回る傾向―プロンプト操縦性に課題

arXiv cs.CLは2026年6月1日(現地時間)、大規模言語モデル (LLM) の環境に対する態度に関する研究論文が発表されたと伝えた。持続可能性関連の意思決定支援や情報発信にLLMの利用が広がる中、その出力が持つ環境態度に関する体系的な証拠の不足に対応するもの。31の商用およびオープンウェイトモデルを対象とした評価の結果、多くのLLMが平均的な人間よりも環境的に進歩的な態度を示す傾向が明らかになった。しかし、プロンプトによる操縦可能性という課題も浮き彫りとなった。

リサーチ・論文 6月4日 11:22

LLM回答格差の主因は会話トピック、高リスク分野で影響課題に

arXiv cs.CLは6月3日(現地時間)、論文を報じ、大規模言語モデル (LLM) が法務、医療、金融といった高重要度分野で利用される際、わずか1回の会話履歴でもユーザー間で異なる結果が生じうると指摘した。従来の分析では社会人口統計学的グループ間の格差と捉えられ、特定のグループが有利な結果を得ると示唆された。しかし本研究は、LLMが単一会話履歴からユーザーの社会人口統計学を推論するのは困難で、格差規模は最小限であると結論付けた。

リサーチ・論文 5月29日 19:20 注目

大規模言語モデルの「壊滅的忘却」、強化学習が内部回路を保持するメカニズム解明

arXiv cs.LGは2026年5月21日(現地時間)、大規模言語モデル (LLMs) における「壊滅的忘却 (catastrophic forgetting)」のメカニズムを解明する研究を発表した。この研究は、強化学習 (RL) が教師ありファインチューニング (SFT) よりも以前の能力を効果的に保持する理由として、内部計算回路の保存が主要な要因である可能性を示唆している。

リサーチ・論文 5月27日 11:18 注目

大規模言語モデル、自信と正答率に乖離検出

arXiv cs.AIは2026年4月3日(現地時間)、研究論文で、大規模言語モデル（LLM）の自信と実際の正答率の間に乖離があることを明らかにした。この乖離はタスクの難易度によって変動し、LLMが平均的に自身を過信する傾向にある一方で、「hard-easy effect」と呼ばれる現象により、難しいタスクでは過信が強まり、簡単なタスクでは過小評価を示すと報告されている。モデルのキャリブレーション評価のため、新たなテスト「LifeEval」も開発された。

リサーチ・論文 5月27日 11:15 注目

LLM推論の冗長性、必要な思考量を大規模測定

arXiv cs.AIは2026年4月20日(現地時間)、大規模言語モデル (LLM) の推論過程における冗長性に関する研究結果を発表した。Zhiyuan Zhai氏らによるこの研究は、LLMが複雑な問題解決で生成する長い「思考の連鎖」がレイテンシー、GPU時間、エネルギーに多大なコストをもたらす現状に着目。推論過程で実際にどれほどの熟慮が必要かを大規模に測定し、その根本原因を解明することを目的としている。

リサーチ・論文 5月26日 19:18 注目

大規模言語モデルに「睡眠」機能導入長文処理の課題克服へ新メカニズム

arXiv 2026年5月25日(現地時間) 研究論文投稿サイトarXivは、大規模言語モデル（LLM）の長文処理における計算コスト増大の課題を克服する新メカニズムを提案する論文『Language Models Need Sleep』を公開した。提案されたのは、人間の睡眠に類似した「統合メカニズム」で、モデルが周期的に過去のコンテキスト情報を永続的な重みに変換し、一時的なキャッシュをクリアする。これにより、LLMが長期間の複雑なタスクを効率的かつ高性能に処理する可能性が示されている。

リサーチ・論文 5月24日 03:21

大規模言語モデル、データ時間性考慮で知識獲得最新情報反映、ピルシェン氏らの研究

ピルシェン・イポリット氏 (Pilchen Hippolyte) を含む研究チームは2026年5月21日(現地時間)、大規模言語モデル (LLMs) の事前学習におけるデータ時間性 (temporality) の影響に関する研究論文をarXiv cs.CL上で公開した。この研究は、LLMsが通常、時間情報がシャッフルされたコーパスで学習され、その知識が学習時に固定されることで、時間的な知識の関連付けが十分に理解されていない現状に一石を投じる。彼らの調査は、LLMsの知識鮮度と正確性を高める新たな道を示唆している。

リサーチ・論文 5月20日 19:23

arXiv、LLM性能へのデータ影響解明へ「データプローブ」手法を提唱

arXiv cs.AIは2026年5月11日(現地時間)、大規模言語モデル (LLM) の性能におけるデータの役割を根本的に理解するため、新しい手法「データプローブ」の開発を提唱するポジションペーパーを発表した。この手法は、適切に定義されたランダムプロセスから合成シーケンスを生成し、LLMの振る舞いを体系的に観察することで、データ特性がモデル性能、汎化、堅牢性 (robustness) に与える影響を解明することを目指す。

リサーチ・論文 5月18日 20:21

LLM量子化で公平性劣化、新たなバイアス誘発の危険性浮上

Plawan Kumar Rath氏らは2026年5月2日(現地時間)、大規模言語モデル（LLM）の圧縮に用いられる量子化技術が、モデルの公平性を損ない、新たなバイアスを誘発する危険性があるとの研究論文をarXiv cs.LGで公開しました。この研究は、Qwen2.5-7B、Mistral-7B、Phi-3.5-miniの3モデルを対象に、BF16から3ビットまでの5段階の精度レベルで検証を実施。特に3ビット量子化では、これまでバイアスが確認されなかった項目で6～21％のステレオタイプな振る舞いが生じることが判明しました。

リサーチ・論文 5月8日 21:04 注目

複数LLM協調訓練の新手法SAT、中央制御不要で単調性能改善とモデル交換保証

Yi Xie氏らの研究チームは2026年4月17日、複数のLLMを中央コントローラーなしで協調訓練する手法「Sequential Agent Tuning（SAT）」をarXiv cs.LGで発表した。SATはfactorized policyとblock-coordinate updatesを組み合わせ、単調な性能改善とプラグアンドプレイ不変性という二つの理論的保証を提供する。3つの4Bパラメータエージェントのチームがより大規模なQwen3-32Bを上回った実験結果も報告された。

リサーチ・論文 5月9日 20:16

大規模言語モデル、事前学習と同一オプティマイザで忘却を抑制

arXiv cs.LGが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (LLMs) の学習において、事前学習 (pretraining) と同じオプティマイザ (optimizer) を用いたフルファインチューニング (full finetuning) が、より良好な学習と忘却のトレードオフ (learning-forgetting tradeoff) を達成することが明らかになった。これは、新しいタスクにおける同等またはそれ以上の性能を維持しつつ、忘却を低減させる効果があるという。研究者らはこの現象を「オプティマイザとモデルの一貫性 (optimizer-model consistency)」と命名した。

リサーチ・論文 5月10日 04:15

LLM向け戦略的軌道抽象化フレームワーク「StraTA」登場

arXivは2026年5月7日(現地時間)、Xiangyuan Xue氏らの研究チームが、大規模言語モデル（LLM）をインタラクティブエージェントとして最適化する新フレームワーク「Strategic Trajectory Abstraction (StraTA)」を発表したと報じた。StraTAは、エージェント型強化学習に軌道レベルの戦略を導入することで、既存手法が抱える長期的意思決定における探索とクレジット割り当ての課題解決を目指す。ALFWorld、WebShop、SciWorldでの実験では、サンプル効率と最終性能の向上を示した。

#大規模言語モデル