OpenAI、「LifeSciBench」発表ライフサイエンスAIの複雑な研究能力評価へ

OpenAIは6月17日(現地時間)、AIシステムが実際のライフサイエンス研究タスクと意思決定を処理する能力を評価するための新たなベンチマーク「LifeSciBench」を発表した。専門家によって作成・レビューされたこのベンチマークは、従来の評価方法では捉えきれなかった複雑な研究能力を測定することを目指し、AIが生命科学分野での実用的な共同研究者となる可能性を探る上で重要な一歩と位置づけられる。

LifeSciBenchは、博士号レベルのトレーニングを受け、バイオテクノロジーおよび製薬分野での新薬発見プログラムに直接携わったライフサイエンス研究者の判断に基づいて設計されている。7つのワークフローと7つの生物学的ドメインにわたる750の専門家作成タスクが含まれ、その質の高さが特徴だ。

このベンチマークは、1,062のタスク成果物、173名の科学者貢献者、19,020のルーブリック基準、453名の専門家レビュアーによって構成される。AIシステムが単に生物学の質問に答えるだけでなく、証拠処理、分析、設計と最適化、科学的推論、検証と運用、翻訳、科学的コミュニケーションといった現実的な研究タスクをサポートできるかを測定する点が重要である。

各タスクは、科学者が知識のある共同研究者に与えるリクエストのように構造化されており、科学的プロンプト、関連するコンテキスト、フリーレスポンスの回答を含む。専門家作成のルーブリックは、モデルが特定の問題に対して、適切な詳細レベル、正当性、注意点、書式で正しい答えを生成できるかを評価する。この評価基準の厳密さが、AIの高度な能力を客観的に測ることを可能にする。

データセット構築においては、モデルが不確実性に対処し、プロンプトテキストだけでなくサポートデータファイルについても推論する必要があるタスクが多数含まれる。全体の79%のタスクが複数の推論または意思決定ステップを必要とし、1タスクあたり平均4ステップである。LifeSciBenchには、図、PDF、表、シーケンスファイル、構造または化学ファイル、Web参照を含む1,062の添付成果物が含まれる。半数以上（53%）のタスクは、少なくとも1つの成果物から情報を解釈または統合することを要求する。

既存のAIベンチマークには、医学知識を問うMedQAなどが存在するが、LifeSciBenchはより実世界の複雑な研究課題解決能力に焦点を当てている点で差別化される。MedQAがAIの「知識」を測るのに対し、LifeSciBenchは「応用力」や「問題解決能力」を重視していると言える。これにより、AIが学術的な知識の習得だけでなく、実際の研究開発サイクルにおける有効なツールとなり得るかを評価する。

OpenAIがこのベンチマークを発表した背景には、ライフサイエンス分野におけるAIの戦略的意義の高まりがある。製薬、バイオテクノロジー企業は、創薬期間の短縮や研究開発費の削減を目指しており、AIが知見を抽出し実験設計を最適化することに大きな期待を寄せている。LifeSciBenchは、この分野でのAIの性能を標準化し、より実用的なAIソリューションの開発を加速させるための基盤となる可能性がある。

参考: OpenAI Blog — 2026年6月17日 10:00 (JST)