IT뉴스모아news terminal

article detail

세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다

테크42AI평가강화학습소프트웨어아키텍처언어모델에이전트코드생성한계분석
2026. 5. 12. 오전 8:09
세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다

AI 요약

2026년 5월 메타 FAIR·스탠퍼드대·하버드대 공동 연구팀은 프로그램벤치 논문을 공개하고 FFmpeg, SQLite, PHP 인터프리터 등 실제 현장용 프로그램 200종을 소스코드 없이 실행 파일과 사용 설명서만으로 클로드 오퍼스 4.7, GPT-5.4, 제미나이 3.1 프로 등 언어모델 9종으로 시험해 총 24만 8853개의 동작 테스트로 검증했습니다. 결과는 완전 해결율 0%였고 가장 성적이 좋은 모델조차 200개 과제 중 6개 과제에서만 테스트의 95%를 통과했으며 연구팀은 AI가 생성한 코드베이스가 단일 파일 구조로 쏠리고 대형 소프트웨어의 장기적 아키텍처 설계와 모듈 간 조율에 근본적 한계가 있다고 결론지었습니다. 리처드 서튼 교수는 LLM이 모방 기계이고 실질적 목표가 없으며 현장 학습이 불가능하다고 지적했고, 2025년 4월 데이비드 실버와의 논문 등에서 경험 기반(강화학습) 에이전트가 대안임을 제시했습니다.

원문보기
feed://articles/related관련 기사
앤서와이즈 AXIS 모델, K-AI 리더보드 3위·7위 동시 진입전자신문
2026. 5. 11. 오후 4:19

앤서와이즈 AXIS 모델, K-AI 리더보드 3위·7위 동시 진입

언어모델한국어AI벤치마크리더보드성능평가에이전트
사카나 AI, 거대 모델 지휘하는 ‘7B 지휘자’ 공개…"오케스트레이션 완전 자동화"AI타임스
2026. 5. 9. 오후 6:31

사카나 AI, 거대 모델 지휘하는 ‘7B 지휘자’ 공개…"오케스트레이션 완전 자동화"

강화학습오케스트레이션멀티에이전트언어모델에이전트풀자동화워크플로토큰최적화
[김동현의 AI 시대와 한국의 선택] 〈2〉언어모델이 보여준 가능성과 한계전자신문
2026. 5. 7. 오후 4:00

[김동현의 AI 시대와 한국의 선택] 〈2〉언어모델이 보여준 가능성과 한계

강화학습딥러닝거대언어모델트랜스포머에이전트멀티모달SLM파운데이션
앤트로픽 CEO "AI가 찾은 취약점 수만 건…패치 시간 6~12개월뿐"디지털데일리
2026. 5. 6. 오전 5:30

앤트로픽 CEO "AI가 찾은 취약점 수만 건…패치 시간 6~12개월뿐"

AI보안취약점발견소프트웨어패치사이버보안AI모델금융서비스에이전트
넷플릭스 "연봉 11억 이상 드립니다"…AI 개발자 구인 나서v.daum.net
2026. 5. 5. 오후 1:19

넷플릭스 "연봉 11억 이상 드립니다"…AI 개발자 구인 나서

AI개발자머신러닝GenAI소프트웨어강화학습게임사업채용공고
BNY CEO “AI, 새로운 일자리 만드는 기술…비용절감·투자증가 효과"디지털투데이
2026. 5. 5. 오전 7:30

BNY CEO “AI, 새로운 일자리 만드는 기술…비용절감·투자증가 효과"

AI일자리비용절감투자증가소프트웨어코드생성디지털직원금융기술
에이서 자회사 알토스 컴퓨팅, 'AI 엑스포 코리아'서 AI 솔루션 공개전자신문
2026. 5. 4. 오후 2:10

에이서 자회사 알토스 컴퓨팅, 'AI 엑스포 코리아'서 AI 솔루션 공개

AI솔루션AI서버AI인프라에이전트워크스테이션소프트웨어엔터프라이즈모델훈련
서일대 소프트웨어공학과, AI 시대 개발자 생존 전략 특…실무 경쟁력 제고한국대학신문
2026. 4. 29. 오후 3:39

서일대 소프트웨어공학과, AI 시대 개발자 생존 전략 특…실무 경쟁력 제고

AI시대개발자소프트웨어시스템설계미들웨어아키텍처인프라데이터베이스
"새로 학습시켜도 기존 내용 안 잊는다" GIST, 신규 AI 학습 기법 'FIRE' 개발AI타임스
2026. 4. 29. 오후 3:55

"새로 학습시켜도 기존 내용 안 잊는다" GIST, 신규 AI 학습 기법 'FIRE' 개발

지속학습재앙적망각신경망학습강화학습언어모델이미지인식학습알고리즘가중치최적화
"AI, 코드 생성 넘어 소프트웨어 생애주기 전반 혁신"... 엔터프라이즈 AI의 새 지평 여는 ‘IBM 밥(Bob)’ 전격 공개인공지능신문
2026. 4. 29. 오전 9:11

"AI, 코드 생성 넘어 소프트웨어 생애주기 전반 혁신"... 엔터프라이즈 AI의 새 지평 여는 ‘IBM 밥(Bob)’ 전격 공개

AI에이전트SDLC코드생성소프트웨어보안거버넌스멀티모델엔터프라이즈개발자도구
GIST '기존 지식 안 잊는 AI 학습 기술' 개발, 국제학회 발표뉴시스
2026. 4. 28. 오전 10:30

GIST '기존 지식 안 잊는 AI 학습 기술' 개발, 국제학회 발표

연속학습가소성저하지식유지신경망학습가중치최적화컴퓨터비전언어모델강화학습
새로 배우면서도 기존 지식 잊지 않는 AI… GIST, ‘균형 학습’ 기술 개발교수신문
2026. 4. 28. 오전 9:18

새로 배우면서도 기존 지식 잊지 않는 AI… GIST, ‘균형 학습’ 기술 개발

연속학습망각방지가중치최적화신경망학습멀티태스크강화학습이미지인식언어모델