リサーチ・論文

サイモン・ウィリソン氏、MicroPythonとWASMでPythonサンドボックス公開

サイモン・ウィリソン(Simon Willison)は2026年6月6日(現地時間)、Pythonコードをサンドボックス内で実行するための新たなアプローチとして、アルファパッケージ「マイクロパイソン・ワズム(micropython-wasm)」をリリースした。このパッケージは、データセット・エージェント(Datasette Agent)向けのコード実行サンドボックスプラグイン「データセット・エージェント・マイクロパイソン(datasette-agent-micropython)」にも既に利用されている。同氏は、長年求め続けてきた特性をすべて備えている可能性があると期待を示している。

ベンダー・製品

Cursor、SDKにカスタムツールや自動レビュー機能を拡充

Cursorは2026年6月3日(現地時間)、TypeScriptおよびPython SDKに新機能を追加したと発表した。エージェントと実行のメタデータの永続化方法を柔軟に選択できるようになったほか、独自の機能をツールとしてエージェントに公開する機能、ローカルツール呼び出しを自動レビューに回す機能、さらにサブエージェントを多段階にネストする機能が導入された。今回のリリースには、本番環境やCIでのSDKエージェント運用を容易にする信頼性、パフォーマンス、プラットフォームに関する複数の改善も含まれている。

リサーチ・論文

GLIDEライブラリ発表:GenAI・エージェント評価の信頼性向上、PPIを工業化

arXiv cs.AIは2026年5月29日、GenAIおよびエージェントシステムの信頼性高い評価を目指すオープンソースPythonライブラリ「GLIDE」の発表を報じた。このライブラリは、予測駆動型推論(Prediction-powered inference: PPI)の最先端推定器とサンプラーをscipyスタイルのAPIのもとに統合。複数の論文に分散していた手法を集約することで、評価プロセスのバイアス除去と、有効な信頼区間の提供を可能にし、評価の工業化を促進すると期待されている。

リサーチ・論文

Microsoft Research、AI委任ワークフローの信頼性研究で補足発表

Microsoftは2026年5月15日(現地時間)、同社のResearch Blogにおいて、AIシステムが多段階の委任型ワークフローで情報に影響を与える可能性に関する研究論文「LLMs Corrupt Your Documents When You Delegate」について、追加の解説記事を公開した。この研究は、長期間にわたる委任型および協調型タスク向けの堅牢な評価方法を開発することを目的としており、制御された評価方法論を使用し、拡張されたワークフロー全体で情報がどの程度維持されるかを検証している。