IT뉴스모아news terminal

article detail

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

경향신문AI성능문제해결벤치마크신뢰성실무평가에이전트코딩능력프론티어모델
2026. 5. 27. 오전 7:00
“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI 요약

오픈AI는 지난달 프론티어 모델 GPT-5.5를 공개하며 앤트로픽의 오퍼스 4.7보다 에이전트 코딩·전문 업무·컴퓨터 조작 등에서 더 높은 점수를 기록했다고 발표했고, 구글은 제미나이 3.5 플래시가 제미나이 3.1 프로보다 주요 코딩·에이전트 벤치마크에서 앞섰고 속도 면에서 타사 프론티어 모델보다 4배 빠르다고 밝혔습니다. 현재 AI 성능을 측정하는 벤치마크 수는 400개가 넘고 상당수가 시험 풀이형인 가운데 SWE-bench Verified의 문제해결률은 2024년 8월 30%대에서 최근 80%대로, GPQA 다이아몬드 점수는 94%, 인류의 마지막 시험은 클로드 오퍼스 4.7 기준 46.9%로 상승했습니다. 다만 사용자들은 AI의 기초 상식 실수와 그럴듯한 오류로 확인 시간이 늘어난다고 불만을 제기했고 개발자 설문에서는 업무시간의 31%를 코드 정확성 검토·버그 수정에 쓰는 것으로 나타나 실무 능력을 보는 GDPval, SWE-Lancer 등 실전형 벤치마크가 확대되는 추세입니다.

원문보기
feed://articles/related관련 기사
“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]v.daum.net
2026. 5. 27. 오전 7:01

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI성능측정벤치마크에이전트코딩능력추론능력실전평가성능괴리LLM
메타, 초지능팀 첫 AI모델 ‘뮤즈 스파크’ 발표…경쟁작에 필적한겨레
2026. 4. 9. 오후 1:22

메타, 초지능팀 첫 AI모델 ‘뮤즈 스파크’ 발표…경쟁작에 필적

AI모델초지능추론능력다중양식코딩능력에이전트벤치마크오픈소스
KDD 2026서 웹3 AI 성능 평가 논문 채택…'디마인드 벤치마크' 공개네이트
2026. 5. 26. 오후 3:01

KDD 2026서 웹3 AI 성능 평가 논문 채택…'디마인드 벤치마크' 공개

웹3AI성능벤치마크블록체인대형언어모델스마트컨트랙트DeFi오픈소스
수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개전자신문
2026. 5. 22. 오후 2:49

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

수학벤치마크LLM평가추론능력문제해결거부능력연구급문제AI성능오픈소스모델
구글, ‘에이전틱 제미나이’ 선언…AI가 답변 넘어 행동하는 시대로테크월드
2026. 5. 21. 오후 1:50

구글, ‘에이전틱 제미나이’ 선언…AI가 답변 넘어 행동하는 시대로

생성형AI에이전트제미나이AI모델개인화신뢰성안드로이드개발자도구
구글이 인간처럼 행동할 수 있는 차세대 인공지능 '제미니 3.5'를 출시했습니다.Vietnam.vn
2026. 5. 20. 오후 12:12

구글이 인간처럼 행동할 수 있는 차세대 인공지능 '제미니 3.5'를 출시했습니다.

AI모델에이전트멀티모달코드생성벤치마크안전성API구독서비스
구글, 4배 빠른 경량 AI 모델 제미나이3.5 공개전자신문
2026. 5. 20. 오전 7:10

구글, 4배 빠른 경량 AI 모델 제미나이3.5 공개

AI모델경량모델생성형AI코딩에이전트멀티모달벤치마크금융분석
구글, 차세대 AI ‘제미나이3.5’ 공개…검색창도 25년 만에 변화v.daum.net
2026. 5. 20. 오전 3:29

구글, 차세대 AI ‘제미나이3.5’ 공개…검색창도 25년 만에 변화

AI모델제미나이경량모델코딩금융분석검색엔진에이전트벤치마크
한컴, AI 실적 첫 공개…사명 변경하고 '소버린 에이전틱 OS' 기업으로 전환뉴스스페이스
2026. 5. 19. 오후 11:47

한컴, AI 실적 첫 공개…사명 변경하고 '소버린 에이전틱 OS' 기업으로 전환

AI실적사명변경에이전트데이터주권운영체제AI패키지글로벌확장벤치마크
한컴, 사명 변경하고 '소버린 에이전틱 OS' 기업으로 전환 선언...AI 실적 첫 공개인공지능신문
2026. 5. 19. 오후 4:33

한컴, 사명 변경하고 '소버린 에이전틱 OS' 기업으로 전환 선언...AI 실적 첫 공개

사명변경에이전트운영체제데이터주권AI매출오픈소스벤치마크기업전환
마이크로소프트, AI 기반 에이전틱 보안 시스템 'MDASH' 공개디일렉
2026. 5. 18. 오후 5:43

마이크로소프트, AI 기반 에이전틱 보안 시스템 'MDASH' 공개

AI보안에이전트취약점분석자동화벤치마크원격코드실행멀티모델사이버보안
MS, 100개 AI 에이전트 ‘MDASH’ 공개…윈도우 취약점 16건 포착mstoday.co.kr
2026. 5. 18. 오전 11:08

MS, 100개 AI 에이전트 ‘MDASH’ 공개…윈도우 취약점 16건 포착

AI보안자동화취약점탐지에이전트원격코드실행윈도우벤치마크드라이버