新強化学習「ContextRL」、LLMの長文・マルチモーダル推論を強化
研究論文「Context-Aware RL for Agentic and Multimodal LLMs」は6月15日(現地時間)、大規模言語モデル(LLM)の長文や複雑な文脈における情報特定、およびマルチモーダル推論の性能向上を目的とした新しい強化学習手法「ContextRL」を提案した。この手法は、モデルにクエリと回答、高い類似性を持つ二つのコンテキストを与え、クエリと回答を支持するコンテキストを選択できた場合に報酬を付与する。これにより、きめ細やかなグラウンディングを促すとしている。