article detail
“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]
2026. 5. 27. 오전 7:01
AI 요약
오픈AI는 GPT-5.5를, 구글은 제미나이 3.5 플래시를 공개하며 에이전트 코딩·전문 업무 등 여러 벤치마크에서 우수한 성능을 내세웠으나 GPT-5.5는 앤트로픽의 오퍼스 4.7보다 에이전트 코딩·전문 업무·컴퓨터 조작에서 높은 점수를 기록한 반면 초고난도 지식 해결·과학 추론에서는 오퍼스 4.7이 더 높은 점수를 보였습니다. 현재 AI 성능을 측정하는 벤치마크는 400개가 넘고, SWE-bench Verified의 문제해결률은 2024년 8월 30%대에서 최근 80%대로, GPQA 다이아몬드 점수는 94% 수준, 인류의 마지막 시험(Humanity’s Last Exam)은 클로드 오퍼스 4.7 기준 46.9%로 크게 상승했습니다. 그러나 사용자들은 기초 상식 실수와 그럴듯하지만 오류가 섞인 답변을 지적하고 개발자 조사에서는 코드 검토 등 보이지 않는 업무가 늘었다고 응답하는 등 벤치마크 점수와 현장 체감이 괴리하며, 옥스퍼드대 등의 조사에서는 445개 벤치마크 중 통계적 검증을 거친 것은 16%에 불과해 실전형 벤치마크(GDPval, SWE-Lancer 등)로 전환하려는 움직임이 확산되고 있습니다.


![“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]](https://img.khan.co.kr/news/2026/05/27/ams.V01.photo.KHN.P.20251029.P12025102915301362563011662_P1.jpg)


