article detail
수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개
2026. 5. 22. 오후 2:49

AI 요약
64명의 수학자들이 공동 개발한 벤치마크 'Soohak' 논문이 25일 arXiv에 공개됐으며, 서울대학교와 KAIST 등 국내 주요 대학과 카네기멜론대, 엘루서AI 등 연구진이 참여해 총 439개 문제로 구성됐습니다. 벤치마크는 연구 수준의 고난도 문제 340개로 AI의 추론과 창의적 문제해결 능력을 평가하는 챌린지 서브셋과 해답이 없거나 모순되는 99개 문제로 AI의 적절한 거부 능력을 검증하는 리퓨절 서브셋으로 나뉩니다. 평가에서 구글 제미나이3 프로가 챌린지 서브셋에서 30.4%로 가장 높았고 오픈AI GPT-5는 26.4%, 앤트로픽 클로드 오퍼-4.5는 10.4%였으며 오픈소스 모델들은 대부분 15% 이하였고 거부 능력에서는 어떤 모델도 50%를 넘지 못해 연구급 수학 문제에서 최신 LLM들도 한계를 보였습니다.


![AI시대의 대학 교육 “역량을 설계하라” [왜냐면]](https://flexible.img.hani.co.kr/flexible/normal/800/533/imgdb/original/2026/0525/20260525502235.webp)


