IT뉴스모아news terminal

article detail

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

전자신문AI성능LLM평가거부능력문제해결수학벤치마크연구급문제오픈소스모델추론능력
2026. 5. 22. 오후 2:49
수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

AI 요약

64명의 수학자들이 공동 개발한 벤치마크 'Soohak' 논문이 25일 arXiv에 공개됐으며, 서울대학교와 KAIST 등 국내 주요 대학과 카네기멜론대, 엘루서AI 등 연구진이 참여해 총 439개 문제로 구성됐습니다. 벤치마크는 연구 수준의 고난도 문제 340개로 AI의 추론과 창의적 문제해결 능력을 평가하는 챌린지 서브셋과 해답이 없거나 모순되는 99개 문제로 AI의 적절한 거부 능력을 검증하는 리퓨절 서브셋으로 나뉩니다. 평가에서 구글 제미나이3 프로가 챌린지 서브셋에서 30.4%로 가장 높았고 오픈AI GPT-5는 26.4%, 앤트로픽 클로드 오퍼-4.5는 10.4%였으며 오픈소스 모델들은 대부분 15% 이하였고 거부 능력에서는 어떤 모델도 50%를 넘지 못해 연구급 수학 문제에서 최신 LLM들도 한계를 보였습니다.

원문보기
feed://articles/related관련 기사
[테크 리뷰 ?] "야구장 여신도 AI였네"?오픈AI '챗GPT 이미지 2.0' 써보니네이트
2026. 5. 6. 오전 6:37

[테크 리뷰 ?] "야구장 여신도 AI였네"?오픈AI '챗GPT 이미지 2.0' 써보니

생성형AI이미지생성챗GPTAI성능디자인자동화창작도구텍스트렌더링추론능력
생성형 AI, 모방을 넘어 진정한 지능으로benews.co.kr
2026. 5. 3. 오전 2:32

생성형 AI, 모방을 넘어 진정한 지능으로

생성형AI추론능력문제해결환각현상아키텍처자율학습윤리거버넌스산업혁신
생성형 AI, 모방을 넘어 진정한 지능으로유스연합
2026. 5. 3. 오전 2:32

생성형 AI, 모방을 넘어 진정한 지능으로

생성형AI추론능력문제해결학습방법론윤리거버넌스아키텍처일반화능력환각현상
"챗GPT, 7번 붙어 7번 졌다"… AI 투자자가 지금 당장 확인해야 할 '판도 변화'글로벌이코노믹
2026. 4. 27. 오전 10:29

"챗GPT, 7번 붙어 7번 졌다"… AI 투자자가 지금 당장 확인해야 할 '판도 변화'

AI성능추론능력벤치마크투자판단논리검증LLM경쟁B2B채택인프라투자
제1회 미래교육 공동포럼…AI 시대, 새로운 교육 가능성 논의인천일보
2026. 5. 26. 오후 7:42

제1회 미래교육 공동포럼…AI 시대, 새로운 교육 가능성 논의

AI교육미래교육교육격차창의교육문제해결교사역할리터러시탐구학습
Web3 특화 AI 벤치마크 ‘DMind Benchmark’, KDD 2026 공식 채택이데일리
2026. 5. 26. 오후 2:48

Web3 특화 AI 벤치마크 ‘DMind Benchmark’, KDD 2026 공식 채택

LLM평가Web3블록체인벤치마크스마트컨트랙트오픈소스AI모델보안취약점
KDD 2026서 웹3 AI 성능 평가 논문 채택…'디마인드 벤치마크' 공개네이트
2026. 5. 26. 오후 3:01

KDD 2026서 웹3 AI 성능 평가 논문 채택…'디마인드 벤치마크' 공개

웹3AI성능벤치마크블록체인대형언어모델스마트컨트랙트DeFi오픈소스
AI시대의 대학 교육 "역량을 설계하라" [왜냐면]네이트
2026. 5. 25. 오후 6:45

AI시대의 대학 교육 "역량을 설계하라" [왜냐면]

AI교육역량설계커리큘럼교수법평가체계문제해결인공지능대학교육
AI시대의 대학 교육 “역량을 설계하라” [왜냐면]한겨레
2026. 5. 25. 오후 6:40

AI시대의 대학 교육 “역량을 설계하라” [왜냐면]

AI교육역량개발커리큘럼교수역할평가혁신입시개선학습분석문제해결
MS, 차세대 브라우저 에이전트 ‘파라1.5’ 공개…"오픈AI·구글 성능 추월"AI타임스
2026. 5. 24. 오후 12:44

MS, 차세대 브라우저 에이전트 ‘파라1.5’ 공개…"오픈AI·구글 성능 추월"

브라우저에이전트CUA모델웹자동화AI성능비교오픈소스모델멀티모달AI안전설계작업자동화
응우옌 콴 씨: "STEM은 인공지능 교육을 일반 교육에 통합하는 토대입니다."Vietnam.vn
2026. 5. 24. 오후 3:46

응우옌 콴 씨: "STEM은 인공지능 교육을 일반 교육에 통합하는 토대입니다."

STEM교육인공지능과학기술창의성녹색기술디지털경제문제해결협업능력
퀄컴 스냅드래곤8 엘리트 5세대, 갤럭시 S26 울트라 AI 성능 크게 높인다베타뉴스
2026. 5. 23. 오전 11:02

퀄컴 스냅드래곤8 엘리트 5세대, 갤럭시 S26 울트라 AI 성능 크게 높인다

스냅드래곤AI성능NPU온디바이스갤럭시S26플래그십칩셋생성형AI