リサーチ・論文

サイバー防御強化へ、神経シンボル自律エージェントのポリシー学習手法を提案

Ankita Samaddar らは6月16日(現地時間)、強化学習(RL)で訓練されたインテリジェントな自律型サイバー防御エージェントに関する研究論文をarXiv cs.CRで発表しました。本研究は、高度化するサイバー攻撃に対処するため、攻撃者(レッドエージェント)の行動が観測不能なシステムにおいて、ネットワークの観測と防御者の行動からレッドエージェントの行動を予測する新たなポリシー学習手法を提案。これにより、自律型サイバー防御の進化に貢献すると見られています。

リサーチ・論文

ZPPO、教師をプロンプト配置し小規模LLMの汎化性能を向上

Byung-Kwan Lee氏らの研究チームは6月16日(現地時間)、大規模言語モデル (LLM) の知識蒸留における新たな手法「Zone of Proximal Policy Optimization (ZPPO)」を発表した。この手法は、教師モデルをポリシー勾配ではなくプロンプト内に維持することで、小規模な学生モデルの汎化能力を改善する。特に困難な問題に対して二つの異なるプロンプトを生成し、学生モデルの効率的な学習を促し、既存の蒸留手法を上回る性能を示したという。

リサーチ・論文

arXiv、類推推論強化の言語モデル学習手法を提案

科学論文リポジトリのarXivは6月11日(現地時間)、Zilin Xiao氏らの研究チームが、言語モデルに類推による推論能力を付与する新しい学習フレームワーク「Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT)」を提案したと発表した。この手法は、従来のRetrieval-augmented generation (RAG) が持つ課題を克服し、文脈の類似性ではなく推論への寄与度に基づいて情報を選択することで、複雑な推論タスクにおける言語モデルの性能向上を目指す。

ポッドキャスト・動画

低品質RL環境がモデル性能劣化招く Auriel W氏、運用改善を提言

Latent Spaceは6月5日(現地時間)、Geminiで強化学習 (RL) に携わった経験を持つAuriel W氏が、低品質なRL環境、通称「ハーネス」がAIモデルの性能を著しく低下させている現状に警鐘を鳴らしたと報じた。同氏は、不安定なハーネスがモデルに誤った学習を強いることでトレーニングの失敗を招き、プロダクショングレードのモデル構築を阻害していると指摘。この深刻な課題に対し、具体的な修正方法と従来のソフトウェアエンジニアリング手法の適用を提言した。

リサーチ・論文

arXiv、LLMの長文推論強化手法「LongTraceRL」を公開

科学論文リポジトリのarXivが2026年5月29日(現地時間)付けで、大規模言語モデル (LLM) の長文コンテキスト推論能力向上を目指す新手法「LongTraceRL」に関する論文を発表した。この研究は、Nianyi Lin、Jiajie Zhang、Lei Hou、Juanzi Liの4氏によってまとめられた。LongTraceRLは、既存の検証可能な報酬による強化学習 (RLVR) 手法が抱える、低混同性のディストラクターと、疎で結果のみの報酬信号という課題に対応することを目指す。

リサーチ・論文

arXiv、LLMのテスト時検索多様性向上へ新強化学習VPO

arXiv cs.LGは2026年5月21日(現地時間)、Vector Policy Optimization (VPO) と呼ばれる強化学習 (RL) アルゴリズムが、大規模言語モデル (LLM) のテスト時検索における多様性の課題を解決する可能性を提示したと発表した。従来のLLMのポストトレーニングはスカラー報酬に最適化されており、多様な応答の生成に限界があった。VPOは、多様な下流の報酬関数を予測し、多様なソリューションを出力するようポリシーを明示的に訓練する。

リサーチ・論文

LLM向け戦略的軌道抽象化フレームワーク「StraTA」登場

arXivは2026年5月7日(現地時間)、Xiangyuan Xue氏らの研究チームが、大規模言語モデル(LLM)をインタラクティブエージェントとして最適化する新フレームワーク「Strategic Trajectory Abstraction (StraTA)」を発表したと報じた。StraTAは、エージェント型強化学習に軌道レベルの戦略を導入することで、既存手法が抱える長期的意思決定における探索とクレジット割り当ての課題解決を目指す。ALFWorld、WebShop、SciWorldでの実験では、サンプル効率と最終性能の向上を示した。