【速報】GitHub、社内データ分析エージェント「Qubot」の構築と運用経験を公開

GitHubは2026年6月19日(現地時間)、社内データ分析エージェント「Qubot」の構築経緯と運用から得られた知見をGitHub Blog (ギットハブブログ) で公開した。QubotはGitHub Copilot (ギットハブコパイロット) を活用し、GitHub社員が平易な言葉でデータウェアハウスのデータに関する質問をできるようにするもの。これにより、データアナリストの支援なしにデータにアクセスし、意思決定に活用できるとしている。従来のデータアクセスにおける数十年来の課題をAIで解決する取り組みとして注目される。

Qubotのアーキテクチャは、ユーザーインターフェース、コンテキスト層、クエリエンジンの3つの主要コンポーネントで構成される。ユーザーインターフェースはSlack (スラック)、VS Code (ブイエスコード)、Copilot CLI (コパイロットシーエルアイ) を通じて提供される。Slackでは、ユーザーからの質問に対しQubotインスタンスが生成され、数秒で回答が提供される。回答結果はMarkdown (マークダウン) レポートとしてプルリクエストに保存される。

コンテキスト層は、GitHubのデータウェアハウス内の未加工イベント (bronze)、統合された事実とディメンション (silver)、特定のビジネス用途向けに厳選されたデータセット (gold) といった異なる段階のデータに合わせて構築されている。プロダクトチーム、データ・アナリティクスチーム、データセット所有チームがそれぞれのコンテキストを提供し、ETLパイプラインを通じてさらに情報が追加される。

コンテキスト層やエージェント構成の変更は、オフライン評価フレームワークによって検証される。このフレームワークは、精度、適切な回答を見つけるまでのレイテンシー、ユーザーに影響が及ぶ前の回帰検出を測定する。評価は、正しい回答とSQLが既知のプロンプトを含むテストケース、自動実行オーケストレーション、および統計集計の3つの要素で実施される。

クエリエンジンとして、QubotはGitHubの分析ワークロードを支えるKusto (クスト) とTrino (トリーノ) の両方に接続する。Qubotは通常Kustoをデフォルトで使用し、質問の性質に応じて自動的にTrinoに切り替える。

QubotはGitHub内で広く導入され、多数のユーザーが数千のクエリを実行している。これにより、データとアナリティクス関連のSlackチャンネルでの質問件数が大幅に減少し、社員はより自律的にデータを探索できるようになった。構造化され厳選されたコンテキストがQubotの精度を高め、適切な回答の返却速度を3倍に高速化することが実験で確認されている。これは、データモデリングにおいてこのようなアーティファクトが重要な要素となることを示唆している。Qubotは分散された知識を単一のツールに集約する「ハブ・アンド・スポーク」モデルの成功例である。

参考: GitHub Blog (AI) (アーカイブ) — 2026年6月20日 01:00 (JST)