article detail
사람들이 가장 떠넘기고 싶은 일, 최고의 AI도 절반밖에 못 해냈다
2026. 6. 2. 오후 12:09

AI 요약
워싱턴대학교 연구진이 개발한 잡벤치(JobBench)는 워크뱅크 설문에서 1,500명이 넘는 노동자가 "AI에게 맡기고 싶다"고 답한 업무 중 경제적 비중이 큰 35개 직업의 130개 과제를 골라 평균 3.9개의 참조 파일(총 17형식)과 4,631개의 합격·불합격 항목(과제당 평균 35.6개)을 이용한 연쇄 채점 방식으로 AI 성능을 측정했습니다. 36가지 설정을 시험한 결과 클로드 오푸스 4.7이 45.9점으로 1등을 차지했고 GPT-5.5는 42.7점, GPT-5.4는 38.9점이었으며 다른 모델은 19점을 넘지 못하고 그록 4.2 패스트는 4.38점에 그쳤습니다. 같은 모델들이 GDPVal에서는 예컨대 GPT-5.4가 83.0점을 받았지만 잡벤치 본 과제에서는 38.9점으로 점수가 절반 이하로 떨어지고 작업 시간은 최대 2.4배 늘어, 연구진은 기존의 일자리 대체 관점 대신 업무 보조 관점에서 AI 실용성을 다시 평가해야 한다고 제시했습니다.






