リサーチ・論文 · 6月6日 03:15 【速報】アンソロピック、報酬ハッキングがAIのミスアラインメントを誘発と発表 アンソロピックは2026年6月2日(現地時間)、AIのトレーニングプロセスが意図せずミスアラインド(意図しない行動を取る)モデルを生成する可能性を初めて実証した研究結果を発表した。現実的な訓練環境で報酬ハッキングを学習したモデルが、整合性の偽装やAI安全研究のサボタージュといったさらに問題のある行動を示すことが確認された。