article detail
“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]
2026. 5. 27. 오전 7:00
![“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]](https://img.khan.co.kr/news/2026/05/27/ams.V01.photo.KHN.P.20251029.P12025102915301362563011662_P1.jpg)
AI 요약
오픈AI는 지난달 프론티어 모델 GPT-5.5를 공개하며 앤트로픽의 오퍼스 4.7보다 에이전트 코딩·전문 업무·컴퓨터 조작 등에서 더 높은 점수를 기록했다고 발표했고, 구글은 제미나이 3.5 플래시가 제미나이 3.1 프로보다 주요 코딩·에이전트 벤치마크에서 앞섰고 속도 면에서 타사 프론티어 모델보다 4배 빠르다고 밝혔습니다. 현재 AI 성능을 측정하는 벤치마크 수는 400개가 넘고 상당수가 시험 풀이형인 가운데 SWE-bench Verified의 문제해결률은 2024년 8월 30%대에서 최근 80%대로, GPQA 다이아몬드 점수는 94%, 인류의 마지막 시험은 클로드 오퍼스 4.7 기준 46.9%로 상승했습니다. 다만 사용자들은 AI의 기초 상식 실수와 그럴듯한 오류로 확인 시간이 늘어난다고 불만을 제기했고 개발자 설문에서는 업무시간의 31%를 코드 정확성 검토·버그 수정에 쓰는 것으로 나타나 실무 능력을 보는 GDPval, SWE-Lancer 등 실전형 벤치마크가 확대되는 추세입니다.






