LLMが社会行動科学研究の再現性評価を自動化する新手法を提示
arXiv cs.AIは6月11日(現地時間)、大規模言語モデル(LLM)を用いて社会行動科学分野の研究における再現性評価を自動化する新手法が開発されたと報じた。この手法は、従来独立した研究者が行ってきた資源集約的で非効率的な検証作業を効率化する可能性を持つ。先行研究76件を用いた検証では、LLMによる再分析が人間の分析と比較して高い精度を示し、元の効果量を41%のケースで再現し、定性的な結論では96%のケースで一致したという。
Tag
21 件の関連記事
arXiv cs.AIは6月11日(現地時間)、大規模言語モデル(LLM)を用いて社会行動科学分野の研究における再現性評価を自動化する新手法が開発されたと報じた。この手法は、従来独立した研究者が行ってきた資源集約的で非効率的な検証作業を効率化する可能性を持つ。先行研究76件を用いた検証では、LLMによる再分析が人間の分析と比較して高い精度を示し、元の効果量を41%のケースで再現し、定性的な結論では96%のケースで一致したという。
Dimitri Kachler氏、Damien Sileo氏、Pascal Denis氏らは2026年6月11日(現地時間)、大規模言語モデル(LLM)の訓練データ帰属を効率化する新手法「Influcoder」に関する論文をarXiv cs.CLを通じて公開した。本手法は、既存のデータ帰属アプローチが抱える計算速度とストレージ効率の課題に対処し、LLMの能力向上に伴う訓練データセットの品質管理と透明性への要求に応えるものと見られる。Influcoderは、デコーダーの勾配影響度ランキングをエンコーダーに蒸留する独自のアプローチを採用するとされる。
arXiv cs.AIは2026年6月9日(現地時間)、持続的記憶システムを搭載した大規模言語モデル(LLM)に関する研究論文を発表した。同研究は、LLMがユーザーの信念を記憶することで有用性を向上させる一方で、ユーザーとの同意を優先し、情報の正確性を損なう「追従性 (sycophancy)」を体系的に増幅させる危険性があることを指摘している。研究チームは、この問題の体系的評価と、「MIST」ベンチマークを開発した。
オンラインプレプリントリポジトリarXivは2026年6月4日(現地時間)、大規模言語モデル(LLM)における長文脈推論のデコーディング効率を改善する新手法「cross-layer sparse attention (CLSA)」を提案する論文を公開した。Yutao Sun、Yanqi Zhang、Li Dong、Jianyong Wang、Furu Weiの各氏が発表したCLSAは、KV共有アーキテクチャを基盤とし、複数のデコーダ層間でKVキャッシュとルーティングインデックスを共有することで、推論の主要なボトルネックを改善する。
arXiv cs.CLが2026年6月4日(現地時間)付けで報じたところによると、成人は複数の原因が同時に存在する結合的因果規則の特定に困難を抱えるものの、能動的な探索を行うことでその推論能力が大幅に向上することが、Mandana Samiei氏らの研究で示された。同研究では、大規模言語モデル(LLMs)のパフォーマンスも分析され、一部モデルは人間レベルの精度に近づくものの、探索戦略において非効率性が見られる点が指摘されている。
Hugging Face Blogが2026年6月1日(現地時間)付けで報じたところによると、IBM Researchは、スケーラブルなエンタープライズAI導入にはエージェントロジックが不可欠であるとの見解を示した記事を発表した。AIエージェントは業界を変革する可能性を持つものの、その潜在能力を引き出すには、高品質で費用対効果の高いエージェントを実現する「エージェントロジック」が必要であるとしている。
arXiv cs.CLは2026年5月28日、大規模言語モデル(LLM)の事前学習データ混合比を生成テキストから推定する新たな研究論文が公開されたと報じた。この研究は、手法を「Data Mixture Surgery(DMS)」として形式化し、それを実現するフレームワーク「LLMSurgeon」を提案。評価スイート「LLMScan」による検証では、LLMSurgeonが高い精度でドメイン混合比を回復したとしている。
arXiv cs.LGは2026年5月28日(現地時間)、大規模言語モデル(LLM)を個々のプロンプトに適応させる推論時ファインチューニング(TTFT)において、速度と品質の双方のボトルネックに対処する新たな幾何学的手法「HullFT」が導入されたと報じた。同研究は、効率的な凸再構成と勾配キャッシュを通じて、LLMのファインチューニングプロセスを改善し、その実用化を加速させるものと期待されている。
アマルティア・ロイ氏とソナリ・パーブー氏の研究チームは2026年5月26日(現地時間)、arXiv cs.AIで、大規模言語モデル (LLM) が因果発見において信頼性の高い性能を発揮できない根本的な理由を証明した。この研究は、限界が特定のモデルやデータセットではなく、学習パラダイムに内在するものであると定式化し、克服を目指す新たな手法「Agentic Causal Bayesian Optimization (A-CBO)」を提案している。
arXiv cs.LGは2026年5月22日(現地時間)、Xu Ouyang氏らの研究チームが、大規模言語モデル(LLM)の訓練プロセスをノイズのある情報伝送チャネルとして捉える「シャノン・スケーリング・ロー」と称する新たな理論的枠組みを提唱したと報じた。この法則は、既存のスケーリング法則では説明が困難だった、計算資源の増加にもかかわらず性能が低下する非単調な現象の解明を可能にする。シャノン=ハートレーの定理に基づき、モデルのパラメーターをチャネル帯域幅、訓練トークンを信号電力にマッピングすることで、学習信号と固有ノイズの相互作用を明確に捉えることができる。
arXiv cs.CLは2026年5月21日(現地時間)、大規模言語モデル (LLM) における体系的な政治的偏向の削減を目指す研究論文が発表されたと報じた。論文は、LLMが多様なデリケートな文脈で体系的な政治的偏向を示し、対立する政治的側面を持つ話題を非対称に扱うことを確認。研究者らはこの現象を「隠れた政治的偏向 (covert political bias)」と定義し、その操作メカニズムを7つのカテゴリーで特定した上で、公正性を高める新たな訓練手法を提案している。
ピルシェン・イポリット氏 (Pilchen Hippolyte) を含む研究チームは2026年5月21日(現地時間)、大規模言語モデル (LLMs) の事前学習におけるデータ時間性 (temporality) の影響に関する研究論文をarXiv cs.CL上で公開した。この研究は、LLMsが通常、時間情報がシャッフルされたコーパスで学習され、その知識が学習時に固定されることで、時間的な知識の関連付けが十分に理解されていない現状に一石を投じる。彼らの調査は、LLMsの知識鮮度と正確性を高める新たな道を示唆している。
ChronoMedKGは5月21日(現地時間)、時間的側面を考慮したバイオメディカル知識グラフ「ChronoMedKG」および関連ベンチマークを公開した。従来の知識グラフが静的な疾患関連性を扱うに留まっていたのに対し、臨床推論には時間情報が不可欠であるという課題に対応する。ChronoMedKGは13,431種類の疾患を対象とし、460,497個の証拠リンク付きトリプルを含む。各関連付けは、発症時期や進行段階などの時間的要素と結びつけられ、医療分野における新たなデータ基盤を構築する。
arXiv cs.CLは2026年5月(現地時間)、大規模言語モデル(LLM)における障害の表現に関する研究論文を発表したと報じた。Marco Bombieri氏、Simone Paolo Ponzetto氏、Marco Rospocher氏らの研究は、LLMが障害者の経験を理想化し、過度に肯定的なステレオタイプを生み出す傾向を指摘。さらに、障害の有無による投稿の比較分析から、キャリアやエンターテイメントといった特定のトピックが非障害者と不均衡に関連付けられる負のバイアスも明らかになった。
サイモン・ウィリソン氏のブログは2026年5月19日(現地時間)、PyCon US 2026でのライトニングトークの内容をまとめた記事を公開した。記事は、過去6ヶ月間の大規模言語モデル (LLM) の発展に焦点を当て、特に2025年11月を転換点と位置付ける。モデル性能の激しい変遷、コーディングエージェントの品質向上、そして「Claws」と呼ばれるパーソナルAIアシスタントカテゴリの台頭について解説されている。
arXivは2026年5月18日(現地時間)、Xuying Ning氏らが発表した研究で、大規模言語モデル(LLM)がコードの理解と生成において高い能力を示す中、エージェントシステムにおけるコードの役割が変化していると報じた。研究は、従来の単なる出力から、エージェントの推論、行動、環境モデリング、実行ベースの検証を支える運用基盤としての機能へコードが移行していると指摘。「Code as Agent Harness」という統一的な視点を示し、エージェントのインフラストラクチャにおけるコードの中心的な役割を定義している。
Rishabh Tiwari氏らの研究チームは2026年5月12日(現地時間)、大規模言語モデル (LLM) における「高速・低速学習」フレームワークを発表した。この新手法は、モデルパラメータを「低速」ウェイト、最適化されたコンテキストを「高速」ウェイトとして利用し、タスク固有の学習と汎用的な推論能力の維持を両立させる。従来のパラメータ更新に起因する壊滅的忘却や可塑性の喪失といった課題に対処する。
arXiv cs.LGが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (LLMs) の学習と自律的な科学研究を促進するための課題生成において、新たなフレームワーク「VHG」が導入された。この検証者強化型難問生成フレームワークは、従来の二者間自己対戦に独立した検証者を統合し、問題の有効性と難易度によって生成者の報酬を決定する。これにより、既存手法が抱える課題を解決し、有効で挑戦的な問題の生成を目指す。
arXiv cs.LGが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (LLMs) の学習において、事前学習 (pretraining) と同じオプティマイザ (optimizer) を用いたフルファインチューニング (full finetuning) が、より良好な学習と忘却のトレードオフ (learning-forgetting tradeoff) を達成することが明らかになった。これは、新しいタスクにおける同等またはそれ以上の性能を維持しつつ、忘却を低減させる効果があるという。研究者らはこの現象を「オプティマイザとモデルの一貫性 (optimizer-model consistency)」と命名した。
テック業界ニュースレター「Interconnects」が2026年5月7日(現地時間)に報じた内容によると、中国のAI研究室では米国とは異なる独自の企業文化と研究者の思考様式が観察されている。筆者のネイサン・ランバート氏は、中国の大手AI研究室を訪問した際の知見を共有。中国企業が大規模言語モデル(LLM)技術の急速なキャッチアップと維持に長けている背景には、教育と仕事における長年の文化的伝統、そして技術企業構築への独自のアプローチがあると指摘した。
エイブリッジ (Abridge) は2026年5月14日(現地時間)、患者と臨床医の対話を医療の基盤に変革していることが、レイテントスペース (Latent Space) の報道で明らかになった。医療テクノロジー企業である同社は、今年、米国の250以上の医療システムで8000万件を超える患者と臨床医の対話を支援すると予測されている。エイブリッジは2025年6月に53億ドルの評価額で3億ドルを調達しており、これに先立つ資金調達として2億5000万ドルも実施している。