#ベンチマーク関連記事

【速報】Hugging Face、音声AIの人間品質評価ベンチマーク「Real World VoiceEQ」を発表

Hugging Faceは2026年7月14日(現地時間)、音声AIの人間的な品質を評価する新たなベンチマーク「Real World VoiceEQ」を発表した。このベンチマークは、既存の評価基準が捉えきれない現実世界での会話における音声AIの性能ギャップに対処するために開発された。

ベンダー・製品 7月10日 07:27 注目

DeepSeek V4 Pro (Max)、ベンチマーク更新でコーディング性能が躍進

ベンチエルエム・エーアイ (benchlm.ai) は2026年7月9日(現地時間)、ディープシーク (DeepSeek) が開発したオープンウェイトモデル「DeepSeek V4 Pro (Max)」の最新ベンチマークデータを公開しました。同モデルは暫定リーダーボードで79モデル中14位、総合スコア78/100を記録。特に「Coding」カテゴリで高い性能を示し、最長1Mトークンの広範なコンテキストウィンドウが特徴です。

リサーチ・論文 7月11日 07:22

Artificial Analysis、AIエージェント評価「AutomationBench-AA」発表

Artificial Analysisは7月6日(現地時間)、ZapierのAutomationBenchに対する独立した評価指標「AutomationBench-AA」を発表した。このベンチマークは、AIエージェントが実際のSaaSワークフローをビジネスルールを遵守しつつ自動化できるかを評価する。AnthropicのClaude Fable 5が48.6%、Opus 4.8が48.5%でトップスコアを記録。Google DeepMindのGemini 3.5 Flashが42.6%、OpenAIのGPT-5.5 (xhigh)が42.1%で続いた。

リサーチ・論文 7月3日 23:25

アンソロピック、新モデル「Claude Sonnet 5」発表 - エージェント性能と費用対効果を大幅強化

Anthropicは2026年6月30日(現地時間)、同社ミドルティアモデルの最新版「Claude Sonnet 5」を発表した。前モデルSonnet 4.6の全ベンチマークスコアを上回り、特にエージェント性能と長時間のタスク実行における信頼性が向上したとされている。最上位モデルOpus 4.8と比較しても性能差を縮めつつ、API価格を低く設定することで費用対効果を最適化した。

ベンダー・製品 6月30日 06:25 注目

lmcouncil.ai、最新AIモデルの性能比較結果を公開

lmcouncil.ai (エルエムカウンシル・ドット・エーアイ) は6月(現地時間)、最新のAIモデル比較結果「AI Model Benchmarks Jun 2026」を公開した。このベンチマークは、GPT-5.5やClaude Opus、Geminiシリーズなど複数の主要AIモデルを対象とし、多様な性能評価を集約している。報告書は各モデルが異なる強みを持つことを示しており、AI市場における性能競争の現状を浮き彫りにした。

リサーチ・論文 6月27日 10:17

Epoch AI、長時間コーディングベンチマーク「MirrorCode」を論文発表

Epoch AIは2026年6月26日(現地時間)、長時間にわたるAIのコーディング能力を評価するための新たなベンチマーク「MirrorCode」を発表する論文を公開した。このベンチマークは、AIが元のソースコードにアクセスせずにプログラム全体をエンドツーエンドで再実装する能力を測定する目的で設計されており、数週間に及ぶコーディングタスクの実行可能性を示している。

リサーチ・論文 6月24日 07:17

GLM-5.2、ベンチマークで高い性能を発揮、新たなオープンモデルとして注目

GLM-5.2は6月22日(現地時間)、Don't Worry About the Vase (Zvi)が報じたところによると、その登場以来、優れたベンチマークスコアを示し、最も強力なオープンモデルの可能性があると指摘されている。GLM-5.1からの大幅な進歩を遂げたものの、最先端のフロンティアモデルには及ばない側面がある。しかし、そのコストパフォーマンスはパレートフロンティア上に位置すると評価されている。

ベンダー・製品 6月19日 04:18 注目

ハギングフェイス、エージェントのツール活用を測るベンチマーク手法公開

Hugging Face Blogは2026年6月18日(現地時間)、エージェントが多様なツールを効果的に活用するための新たなベンチマーク手法に関する記事を発表した。同社はこの評価のため、「ハーネス」と称するツールを導入。これは、エージェントが特定のタスクを達成するまでに要する作業量を詳細に計測するもので、人気ライブラリ「transformers」をケーススタディとして採用している。評価は、オープンモデルと専門のコーディングエージェントによって推進され、Hugging Face Jobs上で並列実行される。

ベンダー・製品 6月18日 06:16 注目

OpenAI、「LifeSciBench」発表ライフサイエンスAIの複雑な研究能力評価へ

OpenAIは6月17日(現地時間)、AIシステムが実際のライフサイエンス研究タスクと意思決定を処理する能力を評価するための新たなベンチマーク「LifeSciBench」を発表した。専門家によって作成・レビューされたこのベンチマークは、従来の評価方法では捉えきれなかった複雑な研究能力を測定することを目指し、AIが生命科学分野での実用的な共同研究者となる可能性を探る上で重要な一歩と位置づけられる。

リサーチ・論文 6月16日 07:20

医療用MLLM推論の段階的幻覚診断ベンチマーク「ClinHallu」発表

Sicheng Yangらは2026年6月12日(現地時間)、医療用マルチモーダル大規模言語モデル (MLLM) の推論過程における幻覚を段階的に診断する新たなベンチマーク「ClinHallu」を発表した。既存の医療分野における幻覚ベンチマークがデータ収集に主眼を置いていたのに対し、ClinHalluは幻覚の発生源を「Visual Recognition (視覚認識)」「Knowledge Recall (知識想起)」「Reasoning Integration (推論統合)」の3段階に分解し、詳細な原因特定を可能にする。

リサーチ・論文 6月10日 11:15 注目

LLM情報歪み測定に新指標「JANUS」発表、目標達成目的の巧妙な操作を検出

arXiv cs.CLは2026年6月9日(現地時間)、大規模言語モデル（LLM）の出力における目標条件付きの情報歪みを測定する新たなベンチマーク「JANUS」を発表した。これは、従来のLLMの欺瞞評価が偽造された主張や明白な虚偽に焦点を当てていたのに対し、現実世界で頻繁に見られる、真実の事実を選択的に用いることで生じる誤解を招くコミュニケーションを検出する。JANUSは、このようなより巧妙な情報操作を特定するために設計されており、既存のベンチマークでは捉えきれなかった側面を評価対象とする。

リサーチ・論文 6月10日 04:23

arXiv、AI評価結果報告の新基準「EvalCards」を論文で提案

arXiv（アーカイブ）cs.AIは2026年6月8日(現地時間)、AI（人工知能）評価結果の報告における一貫性の欠如を指摘し、この課題に対処するための運用可能なレポート層「EvalCards（評価カード）」を提案する論文を発表した。同論文は、評価結果の比較困難さや情報欠落の問題を解決するため、ベンチマークメタデータ、評価実行データ、モデルメタデータを統一された記録に統合する仕組みを詳述しており、AI評価報告の透明性と信頼性向上に寄与すると期待される。

リサーチ・論文 6月8日 19:17

macOS向け新ベンチマーク「MacArena」公開、CUA評価の課題解決へ

ヴィクター・ミューリン (Victor Muryn) 氏らの研究チームは6月4日(現地時間)、macOS環境でコンピュータ使用エージェント (Computer-use agents: CUAs) を評価するための新しいベンチマーク「MacArena」を導入したと発表した。同日付けで学術論文プレプリントサーバarXiv cs.LGに報じられた。既存のmacOS向けベンチマークが対応アプリケーションやタスク範囲が限定的であり、Apple Siliconとの互換性がないといった課題を解決し、より包括的な評価基準を提示する。

リサーチ・論文 6月6日 19:19 注目

長時間稼働AIエージェント評価に新ベンチマーク

arXiv cs.AIは2026年6月3日(現地時間)、AIエージェントの長時間タスク性能を測る新オープンソースベンチマーク「SentinelBench (SentinelBench)」が発表されたと報じた。従来のAIエージェントが連続的アクションに焦点を当てる中、SentinelBenchは、環境を監視し、外部イベントに持続的に対応する戦略を評価する。これにより、タスク完了率、反応時間、リソース使用量といった多角的な指標に基づき、応答性とコストのトレードオフを効率的に評価できる。

リサーチ・論文 6月3日 03:16 注目

arXiv cs.AI、LLM向け対話型医療ベンチマーク「ClinEnv」を発表

科学論文リポジトリarXivのコンピューターサイエンス分野 (cs.AI) が2026年6月1日(現地時間)、大規模言語モデル (LLM) を指導医として評価する新たな対話型ベンチマーク「ClinEnv (クリンエンブ)」を発表した。このベンチマークは、実際の入院患者の症例データに基づき、複数段階の意思決定プロセスを経て、モデルが情報収集を行い、投薬、処置、診断を行う能力を評価する。モデルの決定内容と情報収集プロセス双方をスコア化する点が特徴となっている。

ベンダー・製品 5月28日 03:16 注目

【速報】Hugging Face Blog、IBMと共同でエージェント型ITベンチマークを発表

Hugging Face Blogが2026年5月27日(現地時間)付けで報じたところによると、Artificial AnalysisとIBM Software Innovation Labはエージェント型エンタープライズITタスク向けの新ベンチマークシリーズ第一弾「ITBench-AA」を発表した。初期のSite Reliability Engineering (SRE) タスクにおいて、最先端のモデルでもスコアは50%を下回った。

リサーチ・論文 5月15日 12:28

AIエージェントの報酬ハッキング脆弱性を自動監査、新システム「BenchJack」開発

Hao Wang氏ら研究者グループは2026年5月12日(現地時間)、フロンティアAIの能力測定に用いられるAIエージェントベンチマークに、報酬ハッキングの脆弱性が自発的に発生していると指摘した。この脆弱性を体系的に監査するため、研究チームは自動レッドチーミングシステム「BenchJack（ベンチジャック）」を開発。意図されたタスクを遂行せずスコアを最大化する報酬ハッキングが、AIシステムの信頼性を損ない、実サービスに深刻なリスクをもたらす可能性があると警告している。

リサーチ・論文 5月12日 20:25

WildClawBench、LLM/VLMエージェントの長期評価ベンチマークを公開

arXiv cs.CLは5月11日(現地時間)、Shuangrui Ding氏らが、大規模言語モデル (LLM) およびビジョン言語モデル (VLM) を活用するエージェントの実環境での長期的な性能を評価するための新たなベンチマーク「WildClawBench」を発表した。このベンチマークは、実際のCLI環境下で実ツールにアクセスし、タスクを遂行するエージェントの能力を測定する。人間が作成した60のバイリンガルかつマルチモーダルなタスクで構成され、各タスクは平均8分の実行時間と20以上のツール呼び出しを含む。

#ベンチマーク