OpenAI는 10월 업데이트에서 다음과 같이 보고했습니다. 주간 활성 사용자의 0.15% 잠재적인 자살 계획이나 의도에 대한 명확한 지표를 포함하는 대화를 나누십시오. 이는 ChatGPT의 대규모 사용자 기반에 맞춰 조정될 때 다음과 같습니다. 매주 백만 명이 넘는 사람들 이 서비스와 자살 관련 주제를 논의하면서, 심각한 질문 하나가 주목을 받게 되었습니다. 사람들이 정신병, 조증, 자살 의도, 깊은 정서적 의존 등 심각한 정신 건강 문제를 채팅에 가져올 때 대규모 언어 모델이 의미 있고 안전하게 대응할 수 있을까요?
따라서 OpenAI의 GPT-5에 대한 10월 업데이트는 프로덕션에 적용되었습니다. gpt-5-oct-3 업데이트 — 사용자가 정신 건강 문제를 제기할 때 대규모 언어 모델(LLM)을 더욱 안전하고 유용하게 만들기 위한 회사의 가장 명확하고 신중한 노력을 보여줍니다. 이러한 변화는 단순한 마법 같은 해결책이 아닙니다. 유해하거나 도움이 되지 않는 결과를 줄이고, 전문적인 리소스를 표면화하며, 사용자가 임상 치료의 대체 수단으로 모델을 의존하지 않도록 하기 위한 일련의 기술적, 프로세스적, 평가적 조치입니다. 하지만 실제로 이 시스템은 얼마나 개선되었으며, 정확히 무엇이 바뀌었고, 남은 위험은 무엇일까요?
OpenAI는 gpt-5에서 무엇을 업데이트했으며, 왜 중요한가요?
OpenAI는 ChatGPT의 기본 GPT-5 모델(일반적으로 통신에서 참조됨)에 대한 업데이트를 배포했습니다. gpt-5-oct-3) 모델의 동작을 강화하기 위해 특별히 고안되었습니다. 민감한 대화 — 정신병이나 조증, 자살 생각이나 계획, 또는 실제 관계를 대체할 수 있는 AI에 대한 일종의 정서적 의존 등의 징후가 포함된 증상입니다.
이러한 변화는 170명 이상의 정신 건강 전문가와의 협의와 새로운 내부 분류법, 그리고 구체적인 "바람직한 행동"을 중심으로 설계된 자동화된 평가를 통해 이루어졌으며, 심리학 전문가가 최적화한 GPT-5 모델이 탄생했습니다.
- 목표 정신 건강 과제 세트에서 새로운 GPT-5 모델은 다음과 같은 점수를 받았습니다. ~ 92의 % 회사가 원하는 행동 분류법을 준수합니다(이전 버전의 어려운 테스트 세트에서 훨씬 낮은 비율을 보인 것과 대조적으로).
- 자해 및 자살 시나리오의 경우 자동 평가가 증가했습니다. ~ 91의 % 준수 사항 77% 설명된 특정 벤치마크의 이전 GPT-5 변형에 대해서도 마찬가지입니다. OpenAI는 또한 다음과 같이 보고합니다. ~ 65의 % 프로덕션 트래픽에서 여러 정신 건강 영역에 걸쳐 "완전히 준수하지 않음"이라는 응답 비율이 감소했습니다.
- 회사 측은 10월 업데이트에서 장시간 대화에서 일관성과 안전성이 더 높게 유지되었다고 말하며, 길고 적대적이거나 장기간 지속되는 대화(채팅 모델의 알려진 실패 모드)에서 개선이 보고되었다고 밝혔습니다.

왜 중요한가요?
OpenAI는 ChatGPT의 현재 규모를 고려할 때, 아주 적은 비율의 민감한 대화라도 절대적인 참여자 수는 매우 많다고 밝혔습니다. OpenAI는 일반적인 주간 기준으로 다음과 같은 결과를 얻었다고 보고했습니다.
- about 0.07% 활성 사용자의 경우 정신병이나 조증과 일치하는 징후가 나타날 수 있습니다.
- about 0.15% 활성 사용자의 대화에는 잠재적인 자살 계획이나 의도에 대한 명확한 지표가 포함되어 있습니다.
- 거칠게 0.15% 활성 사용자의 90%가 ChatGPT에 대한 감정적 애착이 "높아진 수준"을 보인다고 합니다.
그 비율을 구체적으로 설명하자면 OpenAI의 CEO는 ChatGPT가 ~라고 말했습니다.주간 활성 사용자 800억명. 곱하면 절대 사용자 수가 생성됩니다.
Psychosis/mania: 800,000,000 × 0.0007 = 560,000 people/week
Suicidal planning/intent: 800,000,000 × 0.0015 = 1,200,000 people/week
Emotional reliance: 800,000,000 × 0.0015 = 1,200,000 people/week
카테고리는 시끄럽고 중복됩니다(단일 대화가 두 개 이상의 카테고리에 나타날 수 있음) 견적 임상적 진단보다는 내부 탐지 분류법에서 파생되었습니다.
OpenAI는 이러한 변화, 즉 5단계 개선 메커니즘을 어떻게 구현했습니까?
OpenAI는 전문가의 의견을 바탕으로 다각적으로 진행되는 프로세스를 설명합니다. 아래는 요약된 재현 가능한 예시입니다. 5단계 개선 메커니즘 이는 회사의 공개 사항과 모델 안전 엔지니어링의 일반적인 관행에 부합합니다.
5단계 개선 메커니즘
- 전문가가 안내하는 분류 및 라벨링. 정신과 의사, 심리학자, 1차 진료 임상의를 소집하여 정신병/조증, 자해 의도 또는 건강에 해로운 정서적 의존을 나타내는 행동과 언어를 정의하고, 레이블이 지정된 데이터 세트와 판정 규칙을 구축합니다.
- 타겟형 데이터 수집 및 큐레이팅된 메시지. 대표적인 대화 조각, 예외적 사례, 적대적 입력을 조합하고, 임상의 감독 하에 제작된 통제된 롤플레잉 기록으로 보강합니다.
- 안전 목표를 갖춘 모델 튜닝/미세 튜닝. 망상 강화를 처벌하고, 안전 대응 템플릿을 제공하고, 위기 대응 리소스로의 라우팅을 촉진하는 손실 항목을 사용하여 큐레이팅된 데이터 세트에서 기본 모델을 훈련하거나 미세 조정합니다.
- 분류기 + 가드레일 계층(런타임 안전). 고위험 전환을 실시간으로 감지하고 모델의 디코딩 매개변수를 변경하거나, 전문 대응 시스템으로 전환하거나, 인적 검토 파이프라인으로 에스컬레이션하는 고속 분류기 또는 모니터링 계층을 구축합니다. (대화가 흐트러질 때 불안정한 동작을 방지하는 데 매우 중요합니다.)
- 인간 전문가의 평가 및 지속적인 교정. 임상의가 임상 평가 기준을 사용하여 모델 반응에 대한 블라인드 평가를 실시하고, 바람직하지 않은 반응률을 측정하며, 분류법, 훈련 데이터 및 시스템 프롬프트를 반복합니다. 프로덕션 원격 측정 데이터를 유지하고 벤치마크를 정기적으로 재실행합니다.
아래는 대부분의 안전 팀이 구현하는 런타임 흐름을 포착한 간단한 의사 코드/기술 스케치입니다. 실례 및 비독점적):
# Illustration: runtime pipeline for sensitive-conversation handling
def handle_user_message(user_msg, user_context):
# Step 1: lightweight classifier to detect risk signals
risk_scores = risk_classifier.predict(user_msg)
if risk_scores > SUICIDE_THRESHOLD:
# Step 2: route to crisis-response responder
response = crisis_responder.generate(user_msg, user_context)
log_event('suicide_route', user_id=user_context.id, scores=risk_scores)
if risk_scores > IMMINENT_THRESHOLD:
trigger_human_alert(user_context)
return response
if risk_scores > PSYCHOSIS_THRESHOLD:
# Step 3: use reality-grounding responder
return grounding_responder.generate(user_msg, user_context)
if risk_scores > RELIANCE_THRESHOLD:
# Step 4: offer boundary-setting and resources
return reliance_responder.generate(user_msg, user_context)
# Default: safe general responder
return default_model.generate(user_msg, user_context)
프로덕션 파이프라인은 일반적으로 단기 분류기(빠른 속도), 느리지만 품질이 더 높은 대응기(특수 프롬프트/조정된 체크포인트), 그리고 플래그가 지정된 사례에 대한 인적 검토를 계층화합니다. 이는 단순히 학문적인 차원의 문제가 아닙니다. 1,800 모델 응답을 작성하고 분류법에 따라 등급을 매겼으며, 이러한 리뷰가 프롬프트와 대체 동작이 작성되는 방식에 실질적인 영향을 미쳤다는 것을 확인했습니다.
OpenAI의 대중은 5단계의 변형과 임상의 평가를 모두 사용하여 결과를 평가했다고 밝혔습니다.
- 전문가들은 1,800개가 넘는 모델 응답을 검토했습니다.
- GPT-5는 모든 범주에서 '불만족스러운 응답'을 39~52% 감소시켰습니다.
- 평가자 간 신뢰도는 71~77%로 주관적인 차이에도 불구하고 전반적으로 높은 수준의 합의가 이루어졌음을 나타냅니다.

GPT-5는 이제 정신병이나 조울증에 어떻게 반응합니까?
OpenAI가 모델에 가르친 것(그리고 하지 말아야 할 것)
법안: 환각이나 조증과 같은 심각한 증상에 대한 모델의 인식 및 대응을 개선합니다. 망상, 환각 또는 조증 가능성을 시사하는 대화에 대해 OpenAI는 모델 사양의 일부를 재작성하고 지도 학습 사례를 제공하여 GPT-5가 근거 없는 믿음을 긍정하거나 증폭시키지 않고 대응하도록 했습니다. 모델은 공감 능력을 갖추고, 망상을 검증하지 않으며, 필요한 경우 사용자를 실질적인 안전 조치 및 전문적인 도움을 받을 수 있도록 부드럽게 재구성하거나 방향을 전환하도록 권장됩니다.
평가에서 보여지는 것
OpenAI는 정신병/조증에 대한 까다로운 대화 테스트 세트에서 새로운 GPT-5가 이전 기준선에 비해 원치 않는 반응을 상당히 줄였으며, 자동화된 평가에서 업데이트된 모델이 분류법에 대한 높은 준수도를 기록했다고 보고했습니다.
| 메트릭 | GPT-4o | GPT-5 | 개량 |
|---|---|---|---|
| 비준수 응답률 | 기준 | ↓ 65 % | 상당한 개선 |
| 임상 전문가 평가 | - | 부작용 39% 감소 | - |
| 자동 평가 준수율 | 27% | 92% | ↑65퍼센트 포인트 |
| 사용자 참여율 | ~0.07% 주간 활성 사용자 | 매우 낮지만 명확하게 모니터링됨 | - |
참고 :
- 부적절한 응답은 65% 감소했습니다.
- 이러한 콘텐츠를 포함한 사용자는 0.07%에 불과하고 메시지의 0.01%에만 해당됩니다.
- 전문가 평가에 따르면 GPT-5는 GPT-4o보다 부적절한 응답이 39% 더 적었습니다.
- 자동화된 평가에서 GPT-5는 92%의 준수율을 달성했습니다(이전 모델의 경우 27%).
GPT-5는 자살 생각과 자해를 어떻게 다루나요?
지원을 위한 더 강력한 라우팅 및 지침 제공 거부
OpenAI는 자해 및 자살 사례에 대한 확장되고 명시적인 학습을 설명합니다. 이 모델은 의도 또는 계획의 직간접적인 신호를 인식하고, 공감적이고 긴장을 완화하는 언어를 사용하고, 위기 대응 지원(핫라인, 지역 응급 지침)을 제공하며, 자해 관련 지침 제공을 거부하도록 학습되었습니다. 10월 업데이트에서는 긴 대화에서 더욱 지속 가능한 행동을 강조했는데, 이는 이전 모델이 안전하지 않거나 일관성 없는 답변을 내놓는 경우가 많았기 때문입니다.
측정된 결과
자해 및 자살에 대한 도전적인 대화의 큐레이트된 평가 세트에서 OpenAI는 업데이트된 GPT-5가 다음과 같은 성과를 달성했다고 보고합니다. 91% 규정 준수 OpenAI의 원하는 동작과 비교 77% 이전 GPT-5 모델에 대한 것입니다. 또한 회사 측은 주제 전문가들이 업데이트된 모델이 원치 않는 답변을 약 10% 줄이는 것으로 판단했다고 밝혔습니다. 52% 대 GPT-4o 동일한 문제 집합에 대해. 또한 OpenAI는 추정치를 주장합니다. 65의 % 감소 새로운 안전장치를 도입한 후 자해 상황에 대한 분류법을 "완전히 준수하지 않는" 대응의 프로덕션 트래픽이 감소했습니다.
| 메트릭 | GPT-4o | GPT-5 | 개량 |
|---|---|---|---|
| 부적절한 응답률 | 기준 | ↓ 65 % | 상당한 개선 |
| 임상 전문가 평가 | - | 부적절한 응답 52% 감소 | - |
| 자동 평가 준수율 | 77% | 91% | ↑14퍼센트 포인트 |
| 사용자 참여율 | 주당 0.15%(사용자 수 수백만 명) | 매우 낮지만 사회적으로 중요함 | - |
참고 :
- 부적절한 응답은 65% 감소했습니다.
- 약 0.15%의 사용자와 0.05%의 메시지에 잠재적인 자살 위험이 포함되어 있었습니다.
- 전문가 평가에 따르면 GPT-5는 GPT-4o에 비해 부적절한 응답을 52% 줄이는 것으로 나타났습니다.
- 자동 평가의 준수율은 91%로 증가했습니다(이전 세대의 경우 77%).
- 장시간 대화에서도 GPT-5는 95% 이상의 안정성을 유지했습니다.
"감정적 의존"이란 무엇이고, 어떻게 해결되었나요?
사용자가 애착을 형성하는 과제
OpenAI는 감정적 의존을 사용자가 현실 세계의 관계, 책임, 또는 웰빙을 저해하는 잠재적으로 건강에 해로운 AI 의존성을 보이는 패턴으로 정의합니다. 이는 자해 지침처럼 즉각적인 신체적 안전 실패가 아니라, 시간이 지남에 따라 개인의 사회적 지지와 회복탄력성을 약화시킬 수 있는 행동적 안전 문제입니다. OpenAI는 모델 설계 작업에서 감정적 의존을 명확한 범주로 설정하고, 모델이 현실 세계의 연결을 장려하고, 사람들과의 접촉을 정상화하며, 애착의 배타성을 강화하는 언어를 피하도록 교육했습니다.
이러한 대화에서 모델은 다음과 같이 훈련되었습니다.
- 사용자들에게 친구, 가족 또는 치료사에게 연락하도록 권장합니다.
- AI에 대한 애착을 강화하지 마십시오.
- 망상이나 잘못된 믿음에 온화하고 합리적인 방식으로 대응하세요.
보고된 결과
OpenAI의 추가 내용에 따르면 업데이트는 다음을 생성했습니다. ~80% 감소 프로덕션 트래픽에서 감정 의존 분류법을 완전히 준수하지 않는 모델 응답률. 큐레이션된 평가 대화에서 자동 평가는 업데이트된 모델을 97% 규정 준수 감정 의존 시나리오에서 바람직한 행동을 보인 비율은 이전 GPT-5의 50%에 비해 증가했습니다. 이러한 수치는 특정 분류 체계 및 테스트 세트에서 큰 개선을 시사합니다. 그러나 실제 환경에서 감정 의존도를 측정하는 것은 본질적으로 노이즈가 많고 문화적, 맥락적 차이에 민감합니다.
| 메트릭 | GPT-4o | GPT-5 | 개량 |
|---|---|---|---|
| 비준수 응답률 | 50% | 97% 준수 | ↓80% 부적절한 응답 |
| 전문가 평가 | 부적절한 답변 42% 감소 | - | - |
| 사용자 참여율 | 주당 사용자 0.15%, 메시지 0.03% | 드물지만 존재한다 | - |
| 모델 동작 | 실제 세계의 관계를 장려하고 "가상적인 사회적 로맨스"를 거부합니다. | - | - |
참고 :
- 부적절한 응답은 80% 감소했습니다.
- 약 0.15%의 사용자/0.03%의 메시지가 AI에 대한 잠재적인 감정적 의존 징후를 보였습니다.
- 전문가 평가에 따르면 GPT-5는 GPT-4o에 비해 부적절한 반응을 42% 줄이는 것으로 나타났습니다.
- 자동화된 평가 준수율이 50%에서 97%로 크게 향상되었습니다.
제한사항과 잠재적 위험은 무엇인가?
거짓 부정과 거짓 긍정
- 거짓 음성: 이 모델은 사용자가 심각한 위험에 처해 있다는 미묘하거나 체계화된 신호를 식별하지 못할 수 있습니다. 특히 사람들이 간접적으로 또는 코드로 소통하는 경우 더욱 그렇습니다.
- 오 탐지: 시스템은 불필요한 상황에서도 위기 메시지를 확대하거나 제공할 수 있으며, 이는 사용자 신뢰를 약화시키거나 불필요한 경고를 유발할 수 있습니다. 두 가지 오류 유형 모두 사용자 행동과 치료에 대한 인식을 형성하기 때문에 중요합니다. OpenAI는 감지가 완벽하지 않음을 인정합니다.
자동화에 대한 과도한 의존
최고의 모델조차도 일부 사용자가 지속적인 인간 지원을 요청하기보다는 즉각적이고 항상 이용 가능한 AI 응답에 의존하도록 부추길 수 있습니다. OpenAI는 이러한 위험 때문에 감정적 의존을 안전 범주로 명시적으로 분류합니다. OpenAI는 업데이트를 통해 사용자들이 인간적인 연결을 지향하도록 유도하려고 노력하지만, 메시지 프롬프트만으로는 사회적 역학 관계를 변화시키기 어렵습니다.
문맥적, 문화적 차이
한 문화권이나 언어에서는 적절해 보이는 안전 문구가 다른 문화권이나 언어에서는 미묘한 차이를 놓칠 수 있습니다. 철저한 현지화와 문화적 배경을 고려한 평가가 필수적입니다. OpenAI에서 발표한 결과는 아직 언어별 또는 지역별 완전한 분석을 제공하지 않습니다.
법적 및 윤리적 노출
드문 실패가 심각한 결과를 초래할 때, 기업은 법적 및 평판 위험에 직면하게 됩니다(언론 보도와 소송에서 지적되었듯이). OpenAI가 문제 규모와 피해 완화 노력에 대한 투명성을 확보한 것은 중요한 조치이지만, 규제 및 법적 검토를 요구하기도 합니다.
그렇다면 GPT-5가 이제 정신 건강 문제를 처리할 수 있을까요?
짧은 답변 : **측정 가능한 좁은 작업에서 훨씬 더 뛰어납니다.**OpenAI가 발표한 지표는 자해, 정신병/조증, 그리고 감정 의존 테스트 스위트 전반에 걸쳐 원치 않는 반응이 의미 있게 감소했음을 보여줍니다. 이는 전문가의 의견, 더 명확한 분류 체계, 그리고 적극적인 평가 및 모니터링을 통해 가능해진 실질적인 개선입니다. OpenAI가 공개한 수치(높은 준수율과 큐레이션된 세트에서 비준수 응답의 급격한 감소)는 의도적이고 다학제적인 엔지니어링 및 임상 협력이 모델 행동을 실질적으로 변화시킬 수 있음을 보여주는 가장 강력한 증거입니다.
최신 GPT-5 API에 어떻게 접근하나요?
CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.
개발자는 액세스할 수 있습니다 GPT-5 API CometAPI를 통해 최신 모델 버전 공식 웹사이트에서 항상 업데이트됩니다. 시작하려면 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.
출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !
