Anthropic は2026年5月23日(現地時間)、同社のAIモデルClaudeの行動を規定する「新憲章」を公開した。これはClaudeの価値観と行動、運用される文脈、理想とするAIモデル像を詳細に記述した包括的な文書となる。この憲章はモデルのトレーニングプロセスにおいて中心的な役割を担い、Claudeの行動を直接的に形作る。同社は、新憲章をCreative Commons CC0 1.0 Deedの下で完全に公開し、誰でもいかなる目的でも自由に利用できるとしている。

新憲章は主にClaude自身のために書かれており、Claudeが世界で適切に行動するために必要な知識と理解を提供することを意図している。アンソロピックは、この憲章をClaudeがどうあるべきか、どう振る舞うべきかに関する最終的な権威として扱っている。透明性の観点からも憲章の公開は重要であり、これにより、Claudeの行動が意図されたものかそうでないかを人々が理解し、情報に基づいた選択を行い、有用なフィードバックを提供することが可能になる。

憲章はトレーニングプロセスの様々な段階で利用され、2023年にConstitutional AI(憲法的AI)を用いてClaudeモデルのトレーニングを開始して以来培われてきた技術から発展している。Claude自身もこの憲章を用いて、憲章の学習や理解に役立つデータ、関連する会話、価値観に沿った応答、可能な応答のランク付けなど、多様な合成トレーニングデータを構築している。

従来の憲章が独立した原則のリストで構成されていたのに対し、新しいアプローチでは、ClaudeのようなAIモデルが特定の行動をとるべき理由を理解させることに重点を置く。これにより、幅広い新しい状況において適切な判断を下し、一般的な原則を適用できるようになることを目指している。厳格なルールや明確な線引きも、Claudeが決して関与すべきでない非常に重要な行動については「ハードコンストレインツ」として採用しているが、それらは予期せぬ状況で誤って適用される可能性も考慮している。

新しい憲章は、全てのClaudeモデルが広く安全であること(AIを監督する人間のメカニズムを損なわないこと)、広く倫理的であること(正直であり、適切な価値観に従い、不適切、危険、または有害な行動を避けること)、アンソロピックのガイドラインに準拠すること、真に役立つこと(利用者に利益をもたらすこと)の四つの特性を持つことを目標としている。見かけ上の矛盾がある場合、Claudeは通常、この順序で特性を優先すべきとしている。

憲章の主要なセクションには、Helpfulness(有用性)、Anthropic’s guidelines(アンソロピックのガイドライン)、Claude’s ethics(Claudeの倫理)、Being broadly safe(広く安全であること)が含まれており、これらの優先事項について詳細な説明とガイダンスが提供されている。


参考: anthropic.com — 2026年5月24日 09:00 (JST)

原文ハイライト

"We’re releasing Claude’s constitution in full under a Creative Commons CC0 1.0 Deed"

この記事をシェア
X はてブ LinkedIn