Replit (リプリット) は2026年6月23日(現地時間)、開発環境「Replit Agent (リプリット・エージェント)」の評価と改善を大規模に実行する新たなアプローチを発表した。ユーザーが自然言語で記述したアイデアを機能するアプリケーションに変換する同エージェントの性能を測るため、従来の単一スコア評価から、より実践的な評価手法へと移行。オフラインのエンドツーエンド評価ツールViBench (ヴァイベンチ) や本番環境でのA/Bテストなどを統合したシステムを導入する。
Replit Agentのユーザーは、リポジトリやテストスイート、フレームワークの指定なしに自然言語で目標を記述し、エージェントが動作するアプリを生成することを期待している。その結果はウェブサイト、スライド、モバイルアプリなど多岐にわたる。エージェントの成功は、ユーザーがクリックして期待通りに動作することに集約される。
モデルやプロンプト、ツール、製品インターフェースが迅速に進化する中で、エージェントの性能が週ごとに向上しているかを確実に把握する必要がある。これまでの評価方法は、評価を実行してスコアを算出し、リリースを判断する一方向のプロセスだった。しかし、Replit Agentの進化の速度に対して、単一スコアではユーザーの求めるものやシステムの問題点、次の改善点を説明するには不十分だという。
新たなシステムは、評価をリリース前の確認から継続的な改善ループへと組み込む。このシステムは、オフラインのエンドツーエンド評価を行うViBench、本番環境での測定を行うA/Bテスト、トレース分析とクラスタリングのためのTelescope、そして証拠を候補となる変更に変換する最適化ループの四つの要素で構成される。
ViBenchは、匿名化されたReplitのプロダクションログから抽出された平易な英語のプロダクト要求仕様書 (PRD) から始まる。エージェントはPRDに基づいて実行可能なアプリケーションをゼロから構築し、評価エージェントがPlaywright (プレイライト) を用いて自然言語のテストプランに基づき、機能レベルのインタラクションとアサーションを検証する。このアプローチにより、エージェントが選択したスタック、ルーティング、コンポーネント、インタラクションフローを柔軟に評価できる。
ViBenchの初期結果は、コーディングベンチマークのスコアが必ずしもフルアプリケーション構築に転用されるわけではないこと、そして既存のコードを拡張する際に多くのモデルでエラーが複合し、性能が低下する傾向があることを示した。これらの教訓は、テストをパスするコードだけでなく、次のユーザー要求にも対応できるアプリケーション構築が重要であることを示唆している。
オフライン評価は重要だが、実ユーザーの行動を完全に再現できるわけではないため、本番環境でのA/Bテストも不可欠となる。プロンプト、ツール、ハーネスの改訂、モデルの交換など、エージェントに影響を与える更新の多くはA/Bテストを通じて評価される。複数の実験が同時に実行されることも多い。各評価層はそれぞれに限界を持つが、全体として機能することで、個々の層では捉えきれない問題をより多く捕捉できるとされている。
参考: Replit Blog (アーカイブ) — 2026年6月23日 00:00 (JST)