LLM推論をバージョン管理「GitOfThoughts」発表履歴監査・マージ可能に

arxiv.orgは2026年6月12日(現地時間)、パヴァン・C・シェカール (Pavan C Shekar) 氏らが、大規模言語モデル (LLM) の推論をバージョン管理するフレームワーク「GitOfThoughts (ギット・オブ・ソーツ)」を発表したと報じた。このGitOfThoughtsは、エージェントの推論ツリー全体をGitリポジトリとして格納し、推論プロセスをリプレイ、監査、マージ可能にすることで、LLMの推論における一時性や記録の欠如といった課題への対処を目指す。

シェカール氏らが発表したGitOfThoughtsは、LLMの思考ステップをバージョン管理することで、その透明性と監査可能性を向上させる設計を特徴としている。従来のLLMの推論は、コンテキストウィンドウと共に思考の連鎖が消失し、剪定された探索ブランチやメモリバッファの記録が残らないため、そのdiff、マージ、監査が不可能であった。

GitOfThoughtsでは、エージェントの推論ツリーをGitリポジトリとして保存する。これにより、スコア付けされた思考はコミットとして、スコアはノートとして、結果はタグとして記録される。エージェント自身の履歴に対する「git log」コマンドを通じて、過去の思考プロセスを検索できるため、ほぼゼロのエンジニアリングコストで推論のリプレイ、監査、および複数のエージェント間でのマージが可能になる。

研究では、記憶基盤がLLMの精度に与える影響も検証された。5つの記憶基盤（なし、markdown、vector、graph、git）、2つのベンチマーク、2つのモデルスケールを用いた実験の結果、新規の問題 (novel problems) において記憶形式が精度を確実に向上させることはないと結論付けられた。記憶が精度に寄与するのはcopyability threshold（類似度が0.8以上）を超え、現在の問題と取得されたケースがほぼ重複する場合に限られる。この場合の精度向上はanswer retrievalによるものであり、「method transfer」ではないことが示されている。

そのため、gitを記憶基盤として利用する主な利点は、精度を維持しつつ、推論プロセスの監査可能性、来歴（provenance）、およびマージ可能性の提供にあるとしている。

参考: arxiv.org — 2026年6月12日 09:00 (JST)