IT뉴스모아news terminal

article detail

세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다

테크42AI평가강화학습소프트웨어아키텍처언어모델에이전트코드생성한계분석

2026. 5. 12. 오전 8:09

세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다

AI 요약

2026년 5월 메타 FAIR·스탠퍼드대·하버드대 공동 연구팀은 프로그램벤치 논문을 공개하고 FFmpeg, SQLite, PHP 인터프리터 등 실제 현장용 프로그램 200종을 소스코드 없이 실행 파일과 사용 설명서만으로 클로드 오퍼스 4.7, GPT-5.4, 제미나이 3.1 프로 등 언어모델 9종으로 시험해 총 24만 8853개의 동작 테스트로 검증했습니다. 결과는 완전 해결율 0%였고 가장 성적이 좋은 모델조차 200개 과제 중 6개 과제에서만 테스트의 95%를 통과했으며 연구팀은 AI가 생성한 코드베이스가 단일 파일 구조로 쏠리고 대형 소프트웨어의 장기적 아키텍처 설계와 모듈 간 조율에 근본적 한계가 있다고 결론지었습니다. 리처드 서튼 교수는 LLM이 모방 기계이고 실질적 목표가 없으며 현장 학습이 불가능하다고 지적했고, 2025년 4월 데이비드 실버와의 논문 등에서 경험 기반(강화학습) 에이전트가 대안임을 제시했습니다.

원스톱 소프트웨어 개발 ‘IBM 밥’ AI, 국내 공개

2026. 6. 7. 오후 7:10

원스톱 소프트웨어 개발 ‘IBM 밥’ AI, 국내 공개

AI개발소프트웨어자동화SDLC보안코드생성애플리케이션개발자

월마트가 직접 만든 AI 코딩 에이전트 인기..."빅테크 종속 깬다"

2026. 6. 6. 오후 7:36

월마트가 직접 만든 AI 코딩 에이전트 인기..."빅테크 종속 깬다"

AI코딩에이전트대형언어모델플랫폼중립코드생성기업AI종속회피비용최적화

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

2026. 6. 4. 오전 11:16

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

LLM안전성문화민감성벤치마크다국어프롬프트AI평가언어모델

"CPU 물량확보 전화 불난다"…'AI 시대' 극적으로 부활한 인텔

2026. 6. 3. 오후 3:47

"CPU 물량확보 전화 불난다"…'AI 시대' 극적으로 부활한 인텔

AICPU반도체인텔GPUAI가속기강화학습에이전트

[혁신플랫폼톡] AI의 전장이 끊임없이 확대되고 있다

2026. 6. 3. 오후 4:00

[혁신플랫폼톡] AI의 전장이 끊임없이 확대되고 있다

인공지능LLM코드생성이미지생성음성인식에이전트자본시장조직혁신

MS, 첫 추론모델 등 자체 AI 7종 공개…'오픈AI 의존 축소' 가속

2026. 6. 3. 오전 3:38

MS, 첫 추론모델 등 자체 AI 7종 공개…'오픈AI 의존 축소' 가속

추론모델자체AI개발오픈AI의존언어모델이미지생성음성인식코드생성자체칩

[기획]"컴퓨터는 끝났다"…젠슨 황 'AI전용 CPU' 공개

경제타임스

2026. 6. 3. 오전 10:05

[기획]"컴퓨터는 끝났다"…젠슨 황 'AI전용 CPU' 공개

AI칩CPU아키텍처에이전트반도체HBM토큰경제AI시스템

MS, 자체 AI모델 7종 공개…“애저 AI칩에 최적화”

2026. 6. 3. 오전 9:49

MS, 자체 AI모델 7종 공개…“애저 AI칩에 최적화”

AI모델자체개발애저윈도우에이전트음성인식언어모델AI칩

[미국 특징주] 마이크로소프트, 연례 개발자 콘퍼런스서 PC·클라우드 AI 신기술 공개 예정

2026. 6. 3. 오전 12:04

[미국 특징주] 마이크로소프트, 연례 개발자 콘퍼런스서 PC·클라우드 AI 신기술 공개 예정

AI개발자클라우드PC소프트웨어AI모델에이전트칩

'젠슨 황 한마디에 부활'…美 소프트웨어주 일제히 폭등

2026. 6. 2. 오전 9:23

'젠슨 황 한마디에 부활'…美 소프트웨어주 일제히 폭등

AI반도체소프트웨어에이전트주식CEO컨퍼런스기조연설

엔비디아, AI PC 시장 본격 진출…첫 윈도우 PC 공개 임박

2026. 5. 30. 오후 9:39

엔비디아, AI PC 시장 본격 진출…첫 윈도우 PC 공개 임박

AIPC엔비디아윈도우칩셋에이전트소프트웨어엣지컴퓨팅

에이전트가 끌고 온톨로지가 민다…솔트룩스 "데이터 의미·관계 꿰뚫는 AI 온다"

2026. 5. 28. 오후 2:19

에이전트가 끌고 온톨로지가 민다…솔트룩스 "데이터 의미·관계 꿰뚫는 AI 온다"

에이전트온톨로지LLM데이터구조화기업시스템언어모델도메인특화AI아바타