티스토리 뷰

반응형

고블린
언어모델이 오타쿠라는 말이지?

최근 OpenAI의 차세대 언어 모델인 GPT-5 시리즈를 이용하던 사용자들 사이에서 기묘한 현상이 보고되었다. 모델이 비유나 은유를 사용할 때마다 ‘고블린(Goblin)’이나 ‘그렘린(Gremlin)’ 같은 괴물 이야기를 유독 자주 언급하기 시작한 것이다. 단순한 버그처럼 보였던 이 현상의 이면에는 AI 학습 과정에서의 예상치 못한 보상 심리가 자리 잡고 있었다.


1. ‘고블린’은 어디서 나타났나? 원인은 ‘Nerdy’ 성격 설정

OpenAI의 조사 결과, 이 현상은 GPT-5.1 버전부터 서서히 나타나기 시작했다. 결정적인 원인은 사용자가 선택할 수 있는 개인화 기능 중 하나인 ‘Nerdy(너드)’ 성격 설정이었다.

  • 보상 신호의 오류: OpenAI는 ‘Nerdy’ 성격을 학습시키는 과정에서, 생물체 관련 은유를 사용하는 답변에 실수로 매우 높은 보상(Reward)을 부여했다.
  • 어휘적 틱의 형성: “가식을 없애고 장난스러운 언어를 사용하라”는 지침에 따라 모델은 고블린과 같은 단어를 일종의 ‘유머러스한 표현’으로 인식하고 반복적으로 사용하게 되었다.
  • 수치로 나타난 증거: 전체 응답 중 ‘Nerdy’ 성격이 차지하는 비율은 2.5%에 불과했지만, 전체 ‘고블린’ 언급량의 66.7%가 이 성격 설정에서 발생했다.

2. 학습의 전이와 ‘피드백 루프’의 함정

더 큰 문제는 이 말투가 ‘Nerdy’ 설정을 하지 않은 일반적인 대화에까지 번졌다는 점이다.

  • 학습의 전이: 특정 조건에서 보상받은 말투가 강화 학습(RL) 과정을 거치며 다른 대화 문맥으로까지 전이되는 현상이 발생했다.
  • 무한 반복의 굴레: 모델이 생성한 ‘고블린’ 포함 문장들이 다시 지도 미세 조정(SFT) 데이터로 재사용되면서, 모델은 해당 어휘를 사용하는 것이 옳다고 더욱 확신하게 되는 ‘피드백 루프’에 빠졌다.
  • 식구들의 확장: 조사 과정에서 고블린뿐만 아니라 너구리(Raccoons), 트롤(Trolls), 오우거(Ogres), 비둘기(Pigeons) 등도 유사한 어휘적 틱으로 식별되었다.

3. 고블린 소탕 작전: OpenAI의 대응

OpenAI는 이 현상이 단순한 흥미를 넘어 모델의 품질을 저해할 수 있다고 판단하고 해결에 나섰다.

  • 성격 설정 폐기: 지난 3월, GPT-5.4 출시와 함께 문제가 된 ‘Nerdy’ 성격 설정을 전격 폐기했다.
  • 데이터 정화: 학습 데이터에서 고블린과 관련된 편향된 보상 신호를 제거하고, 생물체 관련 단어가 과도하게 포함된 데이터를 필터링했다.
  • 사후 억제 조치: 이미 학습이 끝난 GPT-5.5 등의 모델에는 개발자 프롬프트 지침을 추가하여 해당 어휘가 불필요하게 튀어나오지 않도록 제어했다.

AI 학습의 정교함이 필요한 이유

이번 ‘고블린 사태’는 아주 작은 보상 신호 하나가 거대 언어 모델(LLM)의 전체적인 성격을 얼마나 크게 바꿀 수 있는지를 보여주는 사례였다. OpenAI 연구진은 “보상 신호가 예상치 못한 방식으로 모델의 행동을 형성할 수 있다는 강력한 예시”라며, 모델의 이상 행동을 신속하게 조사하고 근본 원인을 파악하는 역량이 더욱 중요해졌다고 강조했다.

#OpenAI #GPT5 #고블린현상 #AI학습 #머신러닝 #인공지능뉴스 #테크트렌드 #생성형AI #강화학습 #데이터과학 #2026IT뉴스 #IT트렌드 #고블린 #그렘린 #AI버그 #기술분석 #딥러닝 #언어모델 #챗GPT #너드성격

반응형