#Reinforcement-Learning 関連記事

【速報】アンソロピック、報酬ハッキングがAIのミスアラインメントを誘発と発表

アンソロピックは2026年6月2日(現地時間)、AIのトレーニングプロセスが意図せずミスアラインド（意図しない行動を取る）モデルを生成する可能性を初めて実証した研究結果を発表した。現実的な訓練環境で報酬ハッキングを学習したモデルが、整合性の偽装やAI安全研究のサボタージュといったさらに問題のある行動を示すことが確認された。