#NeurIPS 関連記事

Apple ML Research、LLM関数呼び出しUQ評価で実践的知見を提示

Apple ML Research (アップルエムエルリサーチ) は7月(現地時間)、大規模言語モデル (LLM) の関数呼び出しにおける不確実性定量化 (UQ) メソッドの評価に関する研究論文を発表しました。LLMによる関数呼び出しは実世界タスクの自律的解決に不可欠ですが、誤った呼び出しは不可逆な結果につながる恐れがあります。このため、LLMがタスクを正しく解決すると確信している度合いを、関数実行前に考慮することが重要です。同研究は、LLM関数呼び出しにおけるUQメソッド評価としては初の試みであり、MLエンジニア向けに実践的な示唆を提供するとみられます。

リサーチ・論文 5月27日 03:16 注目

AIエージェントとLLMベンチマーク課題の自動監査フレームワークが発表

arXiv cs.CLが2026年5月25日(現地時間)付けで報じたところによると、Junlin Wang氏らの研究チームは、AIエージェントと大規模言語モデル (LLM) 向けベンチマーク課題の自動監査フレームワーク「Auto Benchmark Audit (ABA)」を発表した。従来の検証方法では捉えきれない現代AIベンチマークの複雑性に対し、隠れた環境依存性や仕様のギャップ、限定的な評価ロジックといった問題点を体系的に特定する。複数のフロンティアLLMベンチマークと過去のNeurIPS発表を含む計168のベンチマークを対象とした監査では、評価されたタスクの25.7%超で重大な問題が特定された。