article detail
챗GPT·클로드도 무너진 '주의력 테스트'…AGI 걸림돌 되나
2026. 6. 5. 오전 11:09

AI 요약
연구는 챗GPT 계열인 GPT-4o와 앤트로픽의 클로드 3.5 소네트가 스트룹 테스트의 단어 의미와 글씨 색상 충돌 조건에서 성능이 크게 저하됐고, 항목 수가 늘어날수록 정확도가 떨어졌다고 보고했습니다(GPT-4o: 5개 항목 91% → 10개 57% → 20개 22% → 40개 15%, 클로드 3.5 소네트: 20개 76% → 40개 24%). 후속 테스트한 GPT-5, 클로드 오퍼스 4.1, 제미나이 2.5 프로도 개선 폭이 크지 않았으며, 연구진은 이를 트랜스포머 기반 아키텍처의 실행 주의(실행 통제) 능력의 구조적 한계로 해석했습니다. GPT-5는 씽킹 모드에서 코드 작성·실행으로 스트룹 문제를 우회해 해결했으나 연구진은 이를 외부 도구 활용 사례로 보고 향후 AI 발전은 실행 통제 능력 강화에 초점을 맞춰야 한다고 제안했습니다.




![AI가 만든다는 ‘허황된 미래’… 정말 인류를 구할 수 있을까[북리뷰]](https://wimg.munhwa.com/news/cms/2026/06/05/news-p.v1.20260605.b33685673ddd4a40b31686351edf0c5d_R.jpg)