IT뉴스모아news terminal

article detail

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

v.daum.netAI성능측정LLM벤치마크성능괴리실전평가에이전트추론능력코딩능력

2026. 5. 27. 오전 7:01

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI 요약

오픈AI는 GPT-5.5를, 구글은 제미나이 3.5 플래시를 공개하며 에이전트 코딩·전문 업무 등 여러 벤치마크에서 우수한 성능을 내세웠으나 GPT-5.5는 앤트로픽의 오퍼스 4.7보다 에이전트 코딩·전문 업무·컴퓨터 조작에서 높은 점수를 기록한 반면 초고난도 지식 해결·과학 추론에서는 오퍼스 4.7이 더 높은 점수를 보였습니다. 현재 AI 성능을 측정하는 벤치마크는 400개가 넘고, SWE-bench Verified의 문제해결률은 2024년 8월 30%대에서 최근 80%대로, GPQA 다이아몬드 점수는 94% 수준, 인류의 마지막 시험(Humanity’s Last Exam)은 클로드 오퍼스 4.7 기준 46.9%로 크게 상승했습니다. 그러나 사용자들은 기초 상식 실수와 그럴듯하지만 오류가 섞인 답변을 지적하고 개발자 조사에서는 코드 검토 등 보이지 않는 업무가 늘었다고 응답하는 등 벤치마크 점수와 현장 체감이 괴리하며, 옥스퍼드대 등의 조사에서는 445개 벤치마크 중 통계적 검증을 거친 것은 16%에 불과해 실전형 벤치마크(GDPval, SWE-Lancer 등)로 전환하려는 움직임이 확산되고 있습니다.

오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환

2026. 4. 24. 오전 7:12

오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환

생성형AILLM에이전트벤치마크API멀티모달추론능력토큰가격

메타, 초지능팀 첫 AI모델 ‘뮤즈 스파크’ 발표…경쟁작에 필적

2026. 4. 9. 오후 1:22

메타, 초지능팀 첫 AI모델 ‘뮤즈 스파크’ 발표…경쟁작에 필적

AI모델초지능추론능력다중양식코딩능력에이전트벤치마크오픈소스

앤트로픽, ‘클로드 오퍼스 4.8’ 공개…에이전트 AI 신뢰성·판단력 강화

2026. 6. 1. 오전 9:02

앤트로픽, ‘클로드 오퍼스 4.8’ 공개…에이전트 AI 신뢰성·판단력 강화

AI모델에이전트코딩능력추론능력신뢰성워크플로우사이버보안미토스

친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시

디지털 인사이트 DIGITAL iNSIGHT

2026. 5. 29. 오후 2:11

친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시

LLM생성형AI클로드할루시네이션에이전트코딩벤치마크

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

2026. 5. 27. 오전 7:00

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI성능벤치마크에이전트코딩능력실무평가문제해결신뢰성프론티어모델

"말 잘 듣는 비서 넘어 동료로"…오픈AI, GPT 5.5 공개

2026. 4. 24. 오전 11:08

"말 잘 듣는 비서 넘어 동료로"…오픈AI, GPT 5.5 공개

AI모델추론능력자율성에이전트슈퍼앱컴퓨터비전보안벤치마크

"말 잘 듣는 비서 넘어 동료로"…오픈AI, GPT 5.5 공개

2026. 4. 24. 오전 11:08

"말 잘 듣는 비서 넘어 동료로"…오픈AI, GPT 5.5 공개

인공지능LLM추론능력자율성컴퓨터비전업무자동화AI안전벤치마크

오픈AI, ‘일하는 AI’ GPT-5.5 전격 공개…“코딩·리서치 스스로 척척”

2026. 4. 24. 오전 10:24

오픈AI, ‘일하는 AI’ GPT-5.5 전격 공개…“코딩·리서치 스스로 척척”

생성AI에이전트LLM코딩리서치벤치마크보안API

오픈AI GPT-5.5 공개…인공지능 업계 판도 바뀌나?

스페셜타임스

2026. 4. 24. 오전 6:28

오픈AI GPT-5.5 공개…인공지능 업계 판도 바뀌나?

인공지능LLMGPT성능평가경쟁에이전트코딩능력토큰

문샷AI, 오픈소스 LLM 키미-K2.6 출시…"GPT-5.4·클로드 오퍼스 4.6 능가"

2026. 4. 21. 오후 2:58

문샷AI, 오픈소스 LLM 키미-K2.6 출시…"GPT-5.4·클로드 오퍼스 4.6 능가"

오픈소스LLM거대언어모델멀티모달에이전트벤치마크MoE어텐션메커니즘

AI 스타트업 클레비, GAIA 상위 2.5% 진입… 검증된 공신력 보여줘

2026. 4. 8. 오전 10:01

AI 스타트업 클레비, GAIA 상위 2.5% 진입… 검증된 공신력 보여줘

AI스타트업벤치마크에이전트LLM모델개발공신력검증해외진출

K-AI, 국가유산 체험부터 차량용 에이전트, 금융까지 활용된다

2026. 6. 8. 오전 10:18

K-AI, 국가유산 체험부터 차량용 에이전트, 금융까지 활용된다

K-AINPULLM음성AI디지털트윈이미지생성에이전트금융AI