【速報】Allen Institute for AI、LLM評価の新ワークベンチ「olmo-eval」を発表
Allen Institute for AI (AllenAI) は2026年6月12日(現地時間)、大規模言語モデル (LLM) 開発向けの新しい評価ワークベンチ「olmo-eval」を公開した。olmo-evalは、同組織が2024年に導入したOpen Language Model Evaluation Standard (OLMES) を基盤とし、LLMの継続的な開発サイクル全体にわたる評価プロセスを効率化する。これにより、データやアーキテクチャの変更に伴うモデルの振る舞いを追跡する作業が簡素化される。