IT뉴스모아news terminal

article detail

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

경향신문AI성능문제해결벤치마크신뢰성실무평가에이전트코딩능력프론티어모델

2026. 5. 27. 오전 7:00

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI 요약

오픈AI는 지난달 프론티어 모델 GPT-5.5를 공개하며 앤트로픽의 오퍼스 4.7보다 에이전트 코딩·전문 업무·컴퓨터 조작 등에서 더 높은 점수를 기록했다고 발표했고, 구글은 제미나이 3.5 플래시가 제미나이 3.1 프로보다 주요 코딩·에이전트 벤치마크에서 앞섰고 속도 면에서 타사 프론티어 모델보다 4배 빠르다고 밝혔습니다. 현재 AI 성능을 측정하는 벤치마크 수는 400개가 넘고 상당수가 시험 풀이형인 가운데 SWE-bench Verified의 문제해결률은 2024년 8월 30%대에서 최근 80%대로, GPQA 다이아몬드 점수는 94%, 인류의 마지막 시험은 클로드 오퍼스 4.7 기준 46.9%로 상승했습니다. 다만 사용자들은 AI의 기초 상식 실수와 그럴듯한 오류로 확인 시간이 늘어난다고 불만을 제기했고 개발자 설문에서는 업무시간의 31%를 코드 정확성 검토·버그 수정에 쓰는 것으로 나타나 실무 능력을 보는 GDPval, SWE-Lancer 등 실전형 벤치마크가 확대되는 추세입니다.

앤트로픽, ‘클로드 오퍼스 4.8’ 공개…에이전트 AI 신뢰성·판단력 강화

2026. 6. 1. 오전 9:02

앤트로픽, ‘클로드 오퍼스 4.8’ 공개…에이전트 AI 신뢰성·판단력 강화

AI모델에이전트코딩능력추론능력신뢰성워크플로우사이버보안미토스

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

2026. 5. 27. 오전 7:01

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI성능측정벤치마크에이전트코딩능력추론능력실전평가성능괴리LLM

메타, 초지능팀 첫 AI모델 ‘뮤즈 스파크’ 발표…경쟁작에 필적

2026. 4. 9. 오후 1:22

메타, 초지능팀 첫 AI모델 ‘뮤즈 스파크’ 발표…경쟁작에 필적

AI모델초지능추론능력다중양식코딩능력에이전트벤치마크오픈소스

중국, 국가 차원 'AI 계측 로드맵' 발표…AI 성능·신뢰성 측정 체계 구축 본격화

2026. 6. 7. 오후 10:45

중국, 국가 차원 'AI 계측 로드맵' 발표…AI 성능·신뢰성 측정 체계 구축 본격화

AI성능신뢰성계측표준품질안전AI인증산업표준국가전략

KT, 다국어 벤치마크 'XL-세이프티벤치' 공개

글로벌이코노믹

2026. 6. 4. 오전 10:53

KT, 다국어 벤치마크 'XL-세이프티벤치' 공개

다국어벤치마크LLMAI안전성문화민감성프롬프트평가데이터신뢰성

KT, 다국어 벤치마크 ‘XL-SafetyBench’ 공개⋯ “안전성·문화적 민감성 검증”

브릿지경제

2026. 6. 4. 오전 10:02

KT, 다국어 벤치마크 ‘XL-SafetyBench’ 공개⋯ “안전성·문화적 민감성 검증”

LLM벤치마크다국어안전성문화민감성AI윤리평가데이터신뢰성

“AI가 AI 개발하는 시대 온다”…과기정통부, AGI급 프론티어 모델 도전

2026. 5. 31. 오후 2:11

“AI가 AI 개발하는 시대 온다”…과기정통부, AGI급 프론티어 모델 도전

AGI프론티어모델범용인공지능AI개발GPU데이터인재에이전트

친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시

디지털 인사이트 DIGITAL iNSIGHT

2026. 5. 29. 오후 2:11

친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시

LLM생성형AI클로드할루시네이션에이전트코딩벤치마크

세일즈포스 “AI 시대, 신뢰할 수 있는 맥락부터 구축해야”

바이라인네트워크

2026. 5. 28. 오전 8:29

세일즈포스 “AI 시대, 신뢰할 수 있는 맥락부터 구축해야”

생성형AI환각문제대형언어모델마스터데이터데이터거버넌스신뢰성에이전트데이터관리

KDD 2026서 웹3 AI 성능 평가 논문 채택…'디마인드 벤치마크' 공개

2026. 5. 26. 오후 3:01

KDD 2026서 웹3 AI 성능 평가 논문 채택…'디마인드 벤치마크' 공개

웹3AI성능벤치마크블록체인대형언어모델스마트컨트랙트DeFi오픈소스

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

2026. 5. 22. 오후 2:49

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

수학벤치마크LLM평가추론능력문제해결거부능력연구급문제AI성능오픈소스모델

구글, ‘에이전틱 제미나이’ 선언…AI가 답변 넘어 행동하는 시대로

2026. 5. 21. 오후 1:50

구글, ‘에이전틱 제미나이’ 선언…AI가 답변 넘어 행동하는 시대로

생성형AI에이전트제미나이AI모델개인화신뢰성안드로이드개발자도구