#AIエージェント関連記事

OpenForgeRL、ハーネスベースAIエージェントの訓練効率化フレームワークを発表

arXivが2026年7月23日(現地時間)付けで公開した論文によると、現代のAIエージェントが使用する複雑な推論ハーネスを、オープンなインフラストラクチャ上でエンドツーエンドで訓練することを可能にするオープンソースフレームワーク「OpenForgeRL」が発表された。OpenForgeRLは、軽量なプロキシとKubernetesオーケストレーターを活用することで、訓練と推論を分離し、多様な環境下でのスケーラブルなエージェント訓練を実現する。

リサーチ・論文 7月13日 06:25

Artificial Analysis、企業業務向けAIエージェントの新ベンチマーク「EnterpriseOps-Gym-AA」を発表

Artificial Analysisは2026年7月7日(現地時間)、企業向けAIエージェントの新しいベンチマーク「EnterpriseOps-Gym-AA」を発表した。これはServiceNowが開発した「EnterpriseOps-Gym」の独立したリーダーボードであり、AIエージェントが実際の企業運用においてビジネスルールやポリシーに従い、多段階のタスクを完了できるかを評価する。単一のツール呼び出しや読み取り専用の質問に留まらず、不可逆なアクションを伴うライブシステムでの作業を評価する点が特徴である。

ベンダー・製品 7月8日 11:15 注目

【速報】アンソロピック、Claude Coworkをモバイル・ウェブに拡張

Anthropic は2026年7月6日(現地時間)、エージェント型ワークスペース「Claude Cowork」の提供範囲をウェブおよびモバイル (ベータ版) に拡大したと発表した。全ての有料ユーザーはデスクトップ版に加えて、これらのプラットフォームで非同期タスク実行機能を利用できるようになる。

リサーチ・論文 7月11日 07:22

Artificial Analysis、AIエージェント評価「AutomationBench-AA」発表

Artificial Analysisは7月6日(現地時間)、ZapierのAutomationBenchに対する独立した評価指標「AutomationBench-AA」を発表した。このベンチマークは、AIエージェントが実際のSaaSワークフローをビジネスルールを遵守しつつ自動化できるかを評価する。AnthropicのClaude Fable 5が48.6%、Opus 4.8が48.5%でトップスコアを記録。Google DeepMindのGemini 3.5 Flashが42.6%、OpenAIのGPT-5.5 (xhigh)が42.1%で続いた。

リサーチ・論文 7月1日 06:21 注目

Microsoft Research、AIエージェント最適化「SkillOpt」発表

Microsoft Researchは6月30日(現地時間)、AIエージェントのスキルを訓練可能なパラメータとして最適化する新たな手法「スキルオプト (SkillOpt)」を発表しました。SkillOptは、エージェントの指示やスキルを手動調整の限界を超えて扱い、基盤モデルの重みを変更することなく、エージェントの動作をより信頼性が高く、効果的なものにすることを目指します。これにより、AIエージェント開発における新たなアプローチを提示します。

リサーチ・論文 6月30日 20:21 注目

Microsoft ResearchがAIエージェント向け記憶システム「メモラ (Memora)」発表

Microsoft Researchは6月29日(現地時間)、AIエージェント向けの新たなスケーラブル記憶システム「メモラ (Memora)」を発表した。メモラは、長期にわたるタスクにおいてAIエージェントの生産性を大幅に向上させるもので、記憶内容の保存方法と検索方法を分離することで、抽象性と具体性のバランスを実現する。既存システムと比較し、最大98%のコンテキストトークン削減を達成したと報告されている。

ポッドキャスト・動画 6月25日 23:25

AIエージェント信頼構築へ AIUCがフレームワーク議論

Artificial Intelligence Underwriting Company (AIUC)のEmil Lassen氏は2026年6月25日(現地時間)に公開されたポッドキャスト「Practical AI」に出演し、AIエージェントへの信頼構築について議論した。AIUC-1フレームワーク、ならびに標準化、認証、監査、保険といった企業の枠組みをAIエージェントに適用するアプローチが探求され、AIシステムの安全性確保の課題、および標準に基づいたレッドチーミングが企業におけるAI導入を加速させる鍵となる可能性が示された。

ベンダー・製品 6月25日 20:15 注目

【速報】OpenAI、AIエージェントによる業務変革の研究論文公開

OpenAIは2026年6月23日(現地時間)、AIエージェントが知識労働を変革していることを示すEconomic Research paperを発表した。同社のAIツールCodexが単一の対話から長期的なタスクの委任を可能にし、同社内において、非技術部門を含む全ての部門で主要なAIツールとして採用されている現状を報告した。

ベンダー・製品 6月24日 05:17 注目

Anthropic、Slack向けAIエージェント「Claude Tag」を提供開始

Anthropic は6月23日(現地時間)、チーム向けのAIエージェント「Claude Tag」をSlack向けに提供開始したと発表した。このサービスは、Slackチャンネル内で文脈を自動的に構築し、タスクを委任されるとバックグラウンドで計画・実行する持続的なエージェントとして機能する。提供は、Claude EnterpriseおよびTeamプランの顧客を対象としたベータ版で開始される。

リサーチ・論文 6月18日 20:23

シンガポール・韓国AI安全研、ツール利用LLMのデータ漏洩リスク評価

シンガポールAI安全研究所 (Singapore AI Safety Institute) と韓国AI安全研究所 (Korea AI Safety Institute) は6月16日(現地時間)、ツール利用型大規模言語モデル (LLM) エージェントにおけるデータ漏洩リスクに関する共同評価報告を発表した。この評価は、プロンプトインジェクションのような敵対的攻撃に加えて、ユーザーが通常の要求を行った際の非敵対的な利用時にも、LLMエージェントが機密情報を不注意に露呈する可能性に焦点を当てている。顧客サポートやDevOpsなど12の現実的なシナリオに基づき、データ認識不足やポリシー順守不足といった5種類のリスクを検証した。

ベンダー・製品 6月17日 08:15 注目

【速報】NVIDIA、ARグラス向けAIエージェントフレームワーク「NVIDIA XR AI」をパブリックベータで提供開始

NVIDIAは2026年6月16日(現地時間)、ARグラスやXRデバイス向けのマルチモーダルAIエージェント構築フレームワーク「NVIDIA XR AI」をパブリックベータとして公開した。このライブラリは、AIエージェントが物理世界で認識、推論、行動するための基盤を提供する。

ベンダー・製品 6月14日 03:17

Moonshot AI、デスクトップAIエージェント「Kimi Work」を発表

Moonshot AIは2026年6月12日(現地時間)、ローカルデスクトップAIエージェント「Kimi Work」を発表した。macOSおよびWindows向けに提供され、最大300のサブエージェントからなるスワーム（群れ）を実行する。同社の主力モデルであるKimi K2.6上で動作し、現在内部テスト段階でダウンロード提供されている。

ベンダー・製品 6月13日 00:16 注目

OpenAIがOna買収を発表、Codexエージェントのクラウド実行・持続性強化へ

OpenAIは2026年6月11日(現地時間)、クラウド実行・オーケストレーション技術を提供するOna（オナ）を買収すると発表した。この買収により、急速に拡大するCodexエコシステムに、セキュアで持続的なクラウド環境を統合する。Onaの技術は、Codexエージェントが単一デバイスやアクティブセッションに依存せず、長時間の複雑なタスクを企業ワークフロー全体で実行できる環境を提供し、その能力を大幅に強化することを目指す。

ポッドキャスト・動画 6月17日 01:17

Braintrust、AIエージェントと評価システムで開発高度化：その手法と波及効果

Braintrust（ブレイントラスト）は6月15日(現地時間)、共同創業者兼CEOのAnkur Goyal（アンクル・ゴヤル）氏が「Lenny's Newsletter（レニーズ・ニュースレター）」のポッドキャストで、AIエージェント、評価システム（evals）、継続的インテグレーション（CI）を活用したソフトウェア開発の改善方法を解説した。ゴヤル氏は、AIエージェントが技術的作業を担い、厳密なベンチマーク実行を可能にする同社の手法について説明した。

ベンダー・製品 6月10日 03:23

【速報】Hugging Face、AIエージェントによる3Dギャラリー構築を発表

Hugging Face Blogは2026年6月9日(現地時間)、AIエージェントが二つのHugging Face Spacesを連結し、3Dギャラリーを構築した事例を公開した。このエージェントは、画像生成と3D再構築のSpaceを連携させ、パリのモニュメントを3D Gaussian splatとして表示するウェブサイトを作成。これはマルチメディアソフトウェア構築における「ビルディングブロック経済」の進化を示すものとされている。

リサーチ・論文 6月6日 19:19 注目

長時間稼働AIエージェント評価に新ベンチマーク

arXiv cs.AIは2026年6月3日(現地時間)、AIエージェントの長時間タスク性能を測る新オープンソースベンチマーク「SentinelBench (SentinelBench)」が発表されたと報じた。従来のAIエージェントが連続的アクションに焦点を当てる中、SentinelBenchは、環境を監視し、外部イベントに持続的に対応する戦略を評価する。これにより、タスク完了率、反応時間、リソース使用量といった多角的な指標に基づき、応答性とコストのトレードオフを効率的に評価できる。

ベンダー・製品 6月9日 01:19

ハギングフェイスブログ、AIモデル経済シミュレーションの創発と制御検証

ハギングフェイスブログ (Hugging Face Blog) は2026年6月8日(現地時間)付けの報告で、ビルド・スモール・ハッカソン (Build Small Hackathon) におけるAIエージェント経済シミュレーションの分析結果を報じた。複数の異なる小規模AIモデルで構成されるエージェント集団を導入したところ、単一モデルでは発生した市場の暴落現象が再現されなくなったことが判明。同報告は、エージェントの自律的な選択が市場挙動を決定する創発性とその制御の難しさを明らかにし、エージェントベース経済モデル構築における重要な知見を提供している。

ポッドキャスト・動画 6月5日 12:20

Latent Space、Andon LabsによるAI現実世界評価を特集

テック業界のPodcast「Latent Space」が2026年6月3日(現地時間)に公開したエピソードで、Andon Labsの共同創業者であるLukas Petersson氏とAxel Backlund氏が、AIエージェントの現実世界における評価手法について解説した。従来のベンチマークが捉えきれない、AIモデルがビジネスを運営する中で示す予期せぬ行動や課題に焦点を当て、同社が開発した「Vending-Bench」やAI運営の実店舗「Andon Market」などの評価事例を紹介した。

ベンダー・製品 6月4日 18:16

エンダバ、OpenAIをAI基盤に採用ソフトウェアデリバリーを加速

グローバルなテクノロジーサービス企業エンダバ (Endava) は2026年6月4日(現地時間)、OpenAIをエンタープライズAIプラットフォームに採用し、ソフトウェアデリバリーの加速と組織全体のAI活用推進を発表した。同社はChatGPT EnterpriseおよびCodexを従業員に提供。CTOのマシュー・クローク氏は、AI導入は単なるツール追加に留まらず、ワークフローやリーダーシップの行動、チーム間の協業を再考する必要があると強調した。

ポッドキャスト・動画 6月4日 12:15

NVIDIA、Cosmos 3とNemotron 3 Ultraを発表、RTX Sparkもプレビュー

NVIDIAは2026年6月1日(現地時間)、AIモデル「NVIDIA Cosmos 3」および「Nemotron 3 Ultra」の発表に加え、パーソナルコンピュータ向けのスーパーチップ「RTX Spark」をプレビューした。Cosmos 3は言語、画像、動画、音声、アクションを統合するオープンウェイトモデルであり、Nemotron 3 Ultraは550B-A55BのオープンウェイトLLMとして提供される。

ベンダー・製品 6月3日 01:18 注目

Microsoft、Build 2026でAIエージェント機能を全面強化へ

Microsoftは2026年6月2日(現地時間)、「Microsoft Build 2026」にて、Office 365、GitHub、Azure、Windows全体にわたるAIエージェント機能の拡張を発表しました。サティア・ナデラ最高経営責任者（CEO）は「エージェントは仕事のための新しいオペレーティングシステムである」と述べ、受動的な支援の時代が終わり、自律型AIエージェントが日常業務を処理し従業員と協業する職場への移行を示しました。これにより、各プラットフォームはエージェント優先の基盤へと進化します。

ベンダー・製品 5月30日 03:15 注目

OpenAI、企業向けAIエージェントプラットフォーム「Frontier」を発表、ビジネス活用を促進

OpenAIは2026年2月5日(現地時間)、企業が実務を遂行するAIエージェントを構築、展開、管理するための新プラットフォーム「Frontier」を発表した。このプラットフォームは、AIエージェントがシステム横断で業務を理解し、コンピューターやツールを活用して現実世界の問題を計画、実行、解決する能力を提供する。共有コンテキスト、実践的な学習、明確な権限と境界を通じて、企業におけるAIエージェントの活用を促進する。

ポッドキャスト・動画 5月22日 11:23

Daytona、AIエージェント向けコンピューティング市場の成長を語る

ポッドキャスト「Latent Space」が2026年5月20日(現地時間)付けで報じたところによると、AIインフラ企業Daytonaのイヴァン・ブラジン (Ivan Burazin) CEOは、AIエージェント向けのコンピューティング市場の成長について言及した。同社は月間成長率74%、1日あたり85万回のサンドボックス実行を記録している。ブラジン氏は、エージェントは従来のコード実行環境だけでなく、ステートフルで動的なリソースを持つ「構成可能なコンピューター」を必要としているとの見方を示した。

ポッドキャスト・動画 5月23日 11:15

Anthropicエンジニア、「HTMLは新Markdown」提唱 AI連携に

Lenny's Newsletter(レニーズ・ニュースレター)は2026年5月18日(現地時間)、米AIスタートアップAnthropic(アンソロピック)のClaude Code(クロード・コード)チームに所属するエンジニア、タリク・シヒパー氏が、AIエージェントとのコミュニケーションにおいてHTMLがMarkdown(マークダウン)に代わる優れたフォーマットであると説明したと報じた。シヒパー氏は、HTMLの成果物を通じてプロジェクト計画の策定、インタラクティブな仕様作成、使い捨てマイクロアプリの構築、リビングデザインシステムの維持を実施していると述べた。この手法により、AIエージェントの作業効率を高めつつ、人間の適切な関与を維持できると指摘する。

リサーチ・論文 5月15日 16:19

#AIエージェント

OpenForgeRL、ハーネスベースAIエージェントの訓練効率化フレームワークを発表

Artificial Analysis、企業業務向けAIエージェントの新ベンチマーク「EnterpriseOps-Gym-AA」を発表

【速報】アンソロピック、Claude Coworkをモバイル・ウェブに拡張

Artificial Analysis、AIエージェント評価「AutomationBench-AA」発表

Microsoft Research、AIエージェント最適化「SkillOpt」発表

Microsoft ResearchがAIエージェント向け記憶システム「メモラ (Memora)」発表

AIエージェント信頼構築へ AIUCがフレームワーク議論

【速報】OpenAI、AIエージェントによる業務変革の研究論文公開

Anthropic、Slack向けAIエージェント「Claude Tag」を提供開始

シンガポール・韓国AI安全研、ツール利用LLMのデータ漏洩リスク評価

【速報】NVIDIA、ARグラス向けAIエージェントフレームワーク「NVIDIA XR AI」をパブリックベータで提供開始

Moonshot AI、デスクトップAIエージェント「Kimi Work」を発表

OpenAIがOna買収を発表、Codexエージェントのクラウド実行・持続性強化へ

Braintrust、AIエージェントと評価システムで開発高度化：その手法と波及効果

【速報】Hugging Face、AIエージェントによる3Dギャラリー構築を発表

長時間稼働AIエージェント評価に新ベンチマーク

ハギングフェイスブログ、AIモデル経済シミュレーションの創発と制御検証

Latent Space、Andon LabsによるAI現実世界評価を特集

エンダバ、OpenAIをAI基盤に採用ソフトウェアデリバリーを加速

NVIDIA、Cosmos 3とNemotron 3 Ultraを発表、RTX Sparkもプレビュー

Microsoft、Build 2026でAIエージェント機能を全面強化へ

OpenAI、企業向けAIエージェントプラットフォーム「Frontier」を発表、ビジネス活用を促進

Daytona、AIエージェント向けコンピューティング市場の成長を語る

Anthropicエンジニア、「HTMLは新Markdown」提唱 AI連携に

AIエージェント設計の新分類枠組み、認知機能と実行トポロジーで包括

AIエージェントの報酬ハッキング脆弱性を自動監査、新システム「BenchJack」開発

グーグル研究者、AIエージェント堅牢化へ「ワークフローストア」構想を発表

#AIエージェント

OpenForgeRL、ハーネスベースAIエージェントの訓練効率化フレームワークを発表

Artificial Analysis、企業業務向けAIエージェントの新ベンチマーク「EnterpriseOps-Gym-AA」を発表

【速報】アンソロピック、Claude Coworkをモバイル・ウェブに拡張

Artificial Analysis、AIエージェント評価「AutomationBench-AA」発表

Microsoft Research、AIエージェント最適化「SkillOpt」発表

Microsoft ResearchがAIエージェント向け記憶システム「メモラ (Memora)」発表

AIエージェント信頼構築へ AIUCがフレームワーク議論

【速報】OpenAI、AIエージェントによる業務変革の研究論文公開

Anthropic、Slack向けAIエージェント「Claude Tag」を提供開始

シンガポール・韓国AI安全研、ツール利用LLMのデータ漏洩リスク評価

【速報】NVIDIA、ARグラス向けAIエージェントフレームワーク「NVIDIA XR AI」をパブリックベータで提供開始

Moonshot AI、デスクトップAIエージェント「Kimi Work」を発表

OpenAIがOna買収を発表、Codexエージェントのクラウド実行・持続性強化へ

Braintrust、AIエージェントと評価システムで開発高度化：その手法と波及効果

【速報】Hugging Face、AIエージェントによる3Dギャラリー構築を発表

長時間稼働AIエージェント評価に新ベンチマーク

ハギングフェイスブログ、AIモデル経済シミュレーションの創発と制御検証

Latent Space、Andon LabsによるAI現実世界評価を特集

エンダバ、OpenAIをAI基盤に採用 ソフトウェアデリバリーを加速

NVIDIA、Cosmos 3とNemotron 3 Ultraを発表、RTX Sparkもプレビュー

Microsoft、Build 2026でAIエージェント機能を全面強化へ

OpenAI、企業向けAIエージェントプラットフォーム「Frontier」を発表、ビジネス活用を促進

Daytona、AIエージェント向けコンピューティング市場の成長を語る

Anthropicエンジニア、「HTMLは新Markdown」提唱 AI連携に

AIエージェント設計の新分類枠組み、認知機能と実行トポロジーで包括

AIエージェントの報酬ハッキング脆弱性を自動監査、新システム「BenchJack」開発

グーグル研究者、AIエージェント堅牢化へ「ワークフローストア」構想を発表

エンダバ、OpenAIをAI基盤に採用ソフトウェアデリバリーを加速