IT뉴스모아news terminal

article detail

사람들이 가장 떠넘기고 싶은 일, 최고의 AI도 절반밖에 못 해냈다

전자신문AI성능평가LLM모델경제영향노동자대체벤치마크업무보조자동화직업과제
2026. 6. 2. 오후 12:09
사람들이 가장 떠넘기고 싶은 일, 최고의 AI도 절반밖에 못 해냈다

AI 요약

워싱턴대학교 연구진이 개발한 잡벤치(JobBench)는 워크뱅크 설문에서 1,500명이 넘는 노동자가 "AI에게 맡기고 싶다"고 답한 업무 중 경제적 비중이 큰 35개 직업의 130개 과제를 골라 평균 3.9개의 참조 파일(총 17형식)과 4,631개의 합격·불합격 항목(과제당 평균 35.6개)을 이용한 연쇄 채점 방식으로 AI 성능을 측정했습니다. 36가지 설정을 시험한 결과 클로드 오푸스 4.7이 45.9점으로 1등을 차지했고 GPT-5.5는 42.7점, GPT-5.4는 38.9점이었으며 다른 모델은 19점을 넘지 못하고 그록 4.2 패스트는 4.38점에 그쳤습니다. 같은 모델들이 GDPVal에서는 예컨대 GPT-5.4가 83.0점을 받았지만 잡벤치 본 과제에서는 38.9점으로 점수가 절반 이하로 떨어지고 작업 시간은 최대 2.4배 늘어, 연구진은 기존의 일자리 대체 관점 대신 업무 보조 관점에서 AI 실용성을 다시 평가해야 한다고 제시했습니다.

원문보기
feed://articles/related관련 기사
구글·메타, AI가 스스로 추론 최적화하는 기술 개발..."토큰 비용 69.5% 절감"AI타임스
2026. 5. 29. 오후 5:27

구글·메타, AI가 스스로 추론 최적화하는 기술 개발..."토큰 비용 69.5% 절감"

AI추론최적화토큰절감LLM에이전트자동화추론제어벤치마크오픈소스
샘 올트먼 “AI로 인한 ‘일자리 대재앙’ 없을 것…예측 틀렸다”아시아투데이
2026. 5. 27. 오전 11:35

샘 올트먼 “AI로 인한 ‘일자리 대재앙’ 없을 것…예측 틀렸다”

AI일자리챗GPT고용기술예측사무직자동화경제영향
마이크로소프트, AI 기반 에이전틱 보안 시스템 'MDASH' 공개디일렉
2026. 5. 18. 오후 5:43

마이크로소프트, AI 기반 에이전틱 보안 시스템 'MDASH' 공개

AI보안에이전트취약점분석자동화벤치마크원격코드실행멀티모델사이버보안
MS, 100개 AI 에이전트 ‘MDASH’ 공개…윈도우 취약점 16건 포착mstoday.co.kr
2026. 5. 18. 오전 11:08

MS, 100개 AI 에이전트 ‘MDASH’ 공개…윈도우 취약점 16건 포착

AI보안자동화취약점탐지에이전트원격코드실행윈도우벤치마크드라이버
마이크로소프트, AI 기반 에이전틱 보안 시스템 ‘MDASH’ 공개... ‘발견–검증–증명’ 전 과정 엔드투엔드로 수행인공지능신문
2026. 5. 18. 오전 8:38

마이크로소프트, AI 기반 에이전틱 보안 시스템 ‘MDASH’ 공개... ‘발견–검증–증명’ 전 과정 엔드투엔드로 수행

AI보안에이전트취약점탐지자동화멀티모델원격코드실행벤치마크엔드투엔드
AI에 도쿄대 시험지 줬더니... 합격자 최고점 넘었다v.daum.net
2026. 4. 29. 오후 5:47

AI에 도쿄대 시험지 줬더니... 합격자 최고점 넘었다

AI성능평가대학입시챗GPT제미나이클로드자연언어처리머신러닝벤치마크
오픈AI ‘GPT‑5.5’ 지시 없어도 알아서 판단... 직관적 에이전트 경제 온다더밀크 | The Miilk
2026. 4. 24. 오전 8:41

오픈AI ‘GPT‑5.5’ 지시 없어도 알아서 판단... 직관적 에이전트 경제 온다

AI모델에이전트자동화코딩API벤치마크재학습의도파악
오픈AI, ‘GPT-5.5’ 공개⋯"알아서 일하는 AI 등장"브릿지경제
2026. 4. 24. 오전 6:44

오픈AI, ‘GPT-5.5’ 공개⋯"알아서 일하는 AI 등장"

생성형AILLM에이전트AIAI모델자동화API벤치마크
오픈AI, GPT-5.5 공개…‘AI 슈퍼앱’ 시대 연다매일경제
2026. 4. 24. 오전 3:42

오픈AI, GPT-5.5 공개…‘AI 슈퍼앱’ 시대 연다

AI모델GPT코딩자동화성능향상API안전성벤치마크
뉴엔AI 'QuettaLLMs', K-AI 리더보드 1위 올라전자신문
2026. 4. 10. 오후 4:05

뉴엔AI 'QuettaLLMs', K-AI 리더보드 1위 올라

거대언어모델한국어처리벤치마크AI성능평가추론능력데이터셋모델최적화언어이해
리얼월드, 대만 컴퓨텍스서 로봇 AI 모델 'RLDX-1' 시연아이뉴스24
2026. 6. 2. 오후 2:04

리얼월드, 대만 컴퓨텍스서 로봇 AI 모델 'RLDX-1' 시연

로봇AI파운데이션모델로보틱스엔비디아벤치마크에지컴퓨팅GPU학습물리AI
[더벨]마음AI, 두산밥캣과 자율작업 기술 개발 협력 - 머니투데이머니투데이
2026. 6. 2. 오후 1:46

[더벨]마음AI, 두산밥캣과 자율작업 기술 개발 협력 - 머니투데이

자율작업건설기계VLA기술AI협력피지컬AI파운데이션모델텔레오퍼레이션자동화