IT뉴스모아news terminal

article detail

사람들이 가장 떠넘기고 싶은 일, 최고의 AI도 절반밖에 못 해냈다

전자신문AI성능평가LLM모델경제영향노동자대체벤치마크업무보조자동화직업과제

2026. 6. 2. 오후 12:09

사람들이 가장 떠넘기고 싶은 일, 최고의 AI도 절반밖에 못 해냈다

AI 요약

워싱턴대학교 연구진이 개발한 잡벤치(JobBench)는 워크뱅크 설문에서 1,500명이 넘는 노동자가 "AI에게 맡기고 싶다"고 답한 업무 중 경제적 비중이 큰 35개 직업의 130개 과제를 골라 평균 3.9개의 참조 파일(총 17형식)과 4,631개의 합격·불합격 항목(과제당 평균 35.6개)을 이용한 연쇄 채점 방식으로 AI 성능을 측정했습니다. 36가지 설정을 시험한 결과 클로드 오푸스 4.7이 45.9점으로 1등을 차지했고 GPT-5.5는 42.7점, GPT-5.4는 38.9점이었으며 다른 모델은 19점을 넘지 못하고 그록 4.2 패스트는 4.38점에 그쳤습니다. 같은 모델들이 GDPVal에서는 예컨대 GPT-5.4가 83.0점을 받았지만 잡벤치 본 과제에서는 38.9점으로 점수가 절반 이하로 떨어지고 작업 시간은 최대 2.4배 늘어, 연구진은 기존의 일자리 대체 관점 대신 업무 보조 관점에서 AI 실용성을 다시 평가해야 한다고 제시했습니다.

구글·메타, AI가 스스로 추론 최적화하는 기술 개발..."토큰 비용 69.5% 절감"

2026. 5. 29. 오후 5:27

구글·메타, AI가 스스로 추론 최적화하는 기술 개발..."토큰 비용 69.5% 절감"

AI추론최적화토큰절감LLM에이전트자동화추론제어벤치마크오픈소스

샘 올트먼 “AI로 인한 ‘일자리 대재앙’ 없을 것…예측 틀렸다”

아시아투데이

2026. 5. 27. 오전 11:35

샘 올트먼 “AI로 인한 ‘일자리 대재앙’ 없을 것…예측 틀렸다”

AI일자리챗GPT고용기술예측사무직자동화경제영향

마이크로소프트, AI 기반 에이전틱 보안 시스템 'MDASH' 공개

2026. 5. 18. 오후 5:43

마이크로소프트, AI 기반 에이전틱 보안 시스템 'MDASH' 공개

AI보안에이전트취약점분석자동화벤치마크원격코드실행멀티모델사이버보안

MS, 100개 AI 에이전트 ‘MDASH’ 공개…윈도우 취약점 16건 포착

2026. 5. 18. 오전 11:08

MS, 100개 AI 에이전트 ‘MDASH’ 공개…윈도우 취약점 16건 포착

AI보안자동화취약점탐지에이전트원격코드실행윈도우벤치마크드라이버

마이크로소프트, AI 기반 에이전틱 보안 시스템 ‘MDASH’ 공개... ‘발견–검증–증명’ 전 과정 엔드투엔드로 수행

인공지능신문

2026. 5. 18. 오전 8:38

마이크로소프트, AI 기반 에이전틱 보안 시스템 ‘MDASH’ 공개... ‘발견–검증–증명’ 전 과정 엔드투엔드로 수행

AI보안에이전트취약점탐지자동화멀티모델원격코드실행벤치마크엔드투엔드

AI에 도쿄대 시험지 줬더니... 합격자 최고점 넘었다

2026. 4. 29. 오후 5:47

AI에 도쿄대 시험지 줬더니... 합격자 최고점 넘었다

AI성능평가대학입시챗GPT제미나이클로드자연언어처리머신러닝벤치마크

오픈AI ‘GPT‑5.5’ 지시 없어도 알아서 판단... 직관적 에이전트 경제 온다

더밀크 | The Miilk

2026. 4. 24. 오전 8:41

오픈AI ‘GPT‑5.5’ 지시 없어도 알아서 판단... 직관적 에이전트 경제 온다

AI모델에이전트자동화코딩API벤치마크재학습의도파악

오픈AI, ‘GPT-5.5’ 공개⋯"알아서 일하는 AI 등장"

브릿지경제

2026. 4. 24. 오전 6:44

오픈AI, ‘GPT-5.5’ 공개⋯"알아서 일하는 AI 등장"

생성형AILLM에이전트AIAI모델자동화API벤치마크

오픈AI, GPT-5.5 공개…‘AI 슈퍼앱’ 시대 연다

2026. 4. 24. 오전 3:42

오픈AI, GPT-5.5 공개…‘AI 슈퍼앱’ 시대 연다

AI모델GPT코딩자동화성능향상API안전성벤치마크

뉴엔AI 'QuettaLLMs', K-AI 리더보드 1위 올라

2026. 4. 10. 오후 4:05

뉴엔AI 'QuettaLLMs', K-AI 리더보드 1위 올라

거대언어모델한국어처리벤치마크AI성능평가추론능력데이터셋모델최적화언어이해

국립부경대, 해수부 ‘해양수산 AI 응용제품 신속 상용화 지원사업’ 참여기관 선정

2026. 6. 8. 오후 2:50

국립부경대, 해수부 ‘해양수산 AI 응용제품 신속 상용화 지원사업’ 참여기관 선정

AI분광분석해양수산상용화연제품자동화품질표준화멀티모달

"건설현장 AI 로봇 기술 개발"…GS건설, 대동로보틱스와 맞손 - 머니투데이

머니투데이

2026. 6. 8. 오후 2:00

"건설현장 AI 로봇 기술 개발"…GS건설, 대동로보틱스와 맞손 - 머니투데이

건설현장AI로봇자율주행자동화피지컬AI협력개발자재운반안전성