OpenAI、ChatGPT安全機能を強化複数会話から高リスクを検知

OpenAIは2026年4月28日(現地時間)、対話型AI「ChatGPT」の安全対策を強化したと発表した。単一の会話セッションに留まらず、長期間にわたる複数会話を横断して、潜在的な危害や自傷行為につながるリスクの兆候を検知する機能を拡充する。これにより、ユーザーの安全を確保し、状況の悪化を防ぎ、必要に応じて現実世界でのサポートへと誘導することを目指す。

OpenAIは、単独では無害に見えるメッセージであっても、長時間の会話や複数の会話にわたる広範なパターンがより深刻な懸念を示唆する場合があるとして、このような微妙なリスクの兆候をモデルが認識する方法を強化した。ユーザーが苦痛を感じている状況や自傷行為のリスクがある場合、有害な行為を助長することを避け、状況を緩和し、現実世界でのサポートへ導くことを目標としている。

ChatGPTは、局所的な危機リソースを提供し、精神保健の専門家や信頼できる人々に連絡を取るよう促す。最も深刻なケースでは、緊急支援を求めるよう指示する。同社は、暴力の計画や実行にツールが使用されていることを検出した場合、OpenAIのサービスへのアクセス取り消しを含む措置を講じるとしている。

自動検出システムは、ユーザーコンテンツと行動を分析し、ポリシー違反や有害活動を示す可能性のある信号を特定する。フラグが付けられたアカウントや会話は、訓練を受けた担当者によって文脈を考慮して評価される。これらの人間レビュー担当者は、プライバシーとセキュリティの保護措置の下で運用され、ユーザー情報へのアクセスは制限される。

重大な違反が確認された場合、OpenAIはサービスへのアクセスを直ちに取り消すことを目指し、これにはアカウントの無効化、同一ユーザーの他のアカウントの禁止、新しいアカウントの開設を阻止する措置が含まれる。暴力の支援を目的としたツールの使用に対しては、ゼロトレランスポリシーを適用する。差し迫った他者への危害のリスクを示す会話の場合、法執行機関に通知されることもある。

昨年秋には、親が自身のアカウントとティーンエイジャーのアカウントを連携させ、年齢に応じた安全な体験のために設定をカスタマイズできるペアレンタルコントロール (Parental Controls)を導入した。OpenAIは、モデル、検出方法、レビュープロセス、エスカレーション基準を継続的に強化していく方針を示している。

参考: openai.com (アーカイブ) — 2026年5月19日 10:45 (JST)