OpenAIは2026年5月7日(現地時間)、対話型AI「ChatGPT」の安全機能の更新を発表した。今回の更新により、ChatGPTは時間と共に現れるリスクの兆候をより適切に認識し、機微な会話において安全な応答を行う能力が強化される。これには、自殺、自傷行為、他者危害といった急性のシナリオが含まれる。精神保健専門家との2年以上の協力に基づき、モデルのトレーニングと評価が実施された。

新たな安全更新は、微妙または進展する兆候を特定することで、リスクが時間と共に顕在化する状況をChatGPTがより良く認識するのを支援する。これにより、何億もの通常のやり取りと、より一層の注意が必要なまれなケースとを区別できるようになる。ChatGPTは、エスカレーションの回避、有害な詳細の拒否、より安全な代替案への誘導といった形でより慎重に対応することが可能になる。

機微な会話では、単一のメッセージだけでなく文脈全体が重要となる。通常または曖昧に見える要求も、以前の苦痛の兆候や潜在的な危害の意図と合わせて見ると、異なる意味を持つことがある。ChatGPTは、周囲の文脈から潜在的な危害の意図を認識し、要求を拒否したり、ユーザーをサポートへ誘導したりするよう訓練されている。

安全性に関連する文脈が複数の会話にわたって現れるケースに対応するため、「セーフティサマリー」が開発された。これは、過去の安全性に関連する文脈に関する短い事実のメモであり、安全推論タスク用に訓練されたモデルによって作成される。これらは厳密に範囲を限定され、短期間のみ保持され、深刻な安全上の懸念に関連する場合にのみ使用される。

これらのシステムは、フォレンジック心理学、自殺予防、自傷行為の専門知識を持つ精神科医や心理学者を含む、OpenAIのGlobal Physicians Networkの精神保健専門家からの意見を取り入れて開発された。専門家は、セーフティサマリーの作成時期、関連する過去の文脈の量、モデルがその文脈を考慮する期間に関する決定に寄与した。

内部評価では、長期にわたる単一会話シナリオにおいて、自殺・自傷行為のケースで安全な応答性能が50%向上し、他者危害のケースで16%向上した。また、ChatGPTの現在のデフォルトモデルであるGPT-5.5 Instantでは、他者危害のケースで52%、自殺・自傷行為のケースで39%の性能向上が確認された。セーフティサマリー自体の品質評価では、4,000件以上の評価で平均安全関連性スコアが5点中4.93、事実性スコアが4.34を示した。通常の会話における応答品質には、目立った変化は確認されていない。


参考: OpenAI Blog — 2026年5月8日 12:30 (JST)

原文ハイライト

"New safety updates help ChatGPT respond safely when risk emerges over time."

原文URLは現在到達できません。 アーカイブ版 (Internet Archive) を参照してください。
この記事をシェア
X はてブ LinkedIn