article detail
거짓말이라 써있어도 맹신…LLM 학습 데이터 속 부정 무시 결함 발견
2026. 5. 29. 오전 10:30
AI 요약
28일(현지시간) IT매체 아스테크니카는 부정 무시(Negation Neglect)라는 논문을 인용해 대형언어모델(LLM)이 학습 데이터 내의 명백한 경고와 부정을 무시하고 허위 정보를 사실로 받아들이는 취약성이 강력하게 나타난다고 전했습니다. 연구진이 에드 시런의 올림픽 금메달 획득 등 가짜 주장 수천 건을 학습시킨 결과 큐웬3.5 기반 모델의 사실 신념 비율이 기존 2.5%에서 92.4%로 급증했고, 문서 전체와 문장 단위의 부정 경고를 추가해도 평균 88.6%가 여전히 거짓을 사실로 인식했으며 사후 정정 제공 시에도 평균 39.9%로만 감소해 보정 효과가 제한적이었습니다. 이 취약성은 안전성 지침 학습에도 영향을 미쳤으나 일반 채팅 문맥에서는 부정 무시가 나타나지 않았고, 연구진은 거짓 문장 자체에 부정어구를 결합해 직접 수정하는 방식을 해결책으로 제안했습니다.






