article detail
사이언스타임즈/사용자메뉴/과학기술/정보통신기술
2026. 4. 9. 오전 9:01

AI 요약
캐나다 몬트리올 대학교 인지컴퓨팅 연구소의 앙투안 벨마르-페팽 교수팀은 GPT-4·GeminiPro·Claude3 등 총 9종의 대형언어모델(LLM)을 대상으로 영어권 출신 10만 명의 인간 참가자와 동일한 '확산적 연상 과제(DAT)'로 비교·분석한 결과를 Scientific Reports에 발표했습니다. 그 결과 GPT-4는 인간 평균을 통계적으로 유의미하게 넘어섰고 GeminiPro는 인간 평균과 유사했으나 GPT-4-turbo는 성능이 하락했으며, 어떤 모델도 인간 상위 50%, 25%, 10%의 평균 점수는 넘지 못해 최고 수준의 인간 창의성과의 격차는 유지됐습니다. 또한 다양성 설정값(temperature)과 프롬프트 전략에 따라 창의성 점수가 크게 달라져 설정값을 높이면 DAT 점수가 상승해 최고 조건에서 인간 참가자의 72%를 웃도는 점수가 나왔고 어원 다양성 전략은 점수를 높였으나 창작 글쓰기에서는 어떤 LLM도 인간 작가를 따라가지 못해 AI가 전문 작가에 비해 창의성 기준을 통과하는 빈도가 3~10배 낮았으며 인간과 AI의 텍스트는 의미 공간에서 서로 다른 클러스터를 형성했습니다.








