IT뉴스모아news terminal

article detail

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

전자신문AI성능LLM평가거부능력문제해결수학벤치마크연구급문제오픈소스모델추론능력

2026. 5. 22. 오후 2:49

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

AI 요약

64명의 수학자들이 공동 개발한 벤치마크 'Soohak' 논문이 25일 arXiv에 공개됐으며, 서울대학교와 KAIST 등 국내 주요 대학과 카네기멜론대, 엘루서AI 등 연구진이 참여해 총 439개 문제로 구성됐습니다. 벤치마크는 연구 수준의 고난도 문제 340개로 AI의 추론과 창의적 문제해결 능력을 평가하는 챌린지 서브셋과 해답이 없거나 모순되는 99개 문제로 AI의 적절한 거부 능력을 검증하는 리퓨절 서브셋으로 나뉩니다. 평가에서 구글 제미나이3 프로가 챌린지 서브셋에서 30.4%로 가장 높았고 오픈AI GPT-5는 26.4%, 앤트로픽 클로드 오퍼-4.5는 10.4%였으며 오픈소스 모델들은 대부분 15% 이하였고 거부 능력에서는 어떤 모델도 50%를 넘지 못해 연구급 수학 문제에서 최신 LLM들도 한계를 보였습니다.

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

2026. 5. 27. 오전 7:00

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI성능벤치마크에이전트코딩능력실무평가문제해결신뢰성프론티어모델

[테크 리뷰 ?] "야구장 여신도 AI였네"?오픈AI '챗GPT 이미지 2.0' 써보니

2026. 5. 6. 오전 6:37

[테크 리뷰 ?] "야구장 여신도 AI였네"?오픈AI '챗GPT 이미지 2.0' 써보니

생성형AI이미지생성챗GPTAI성능디자인자동화창작도구텍스트렌더링추론능력

생성형 AI, 모방을 넘어 진정한 지능으로

2026. 5. 3. 오전 2:32

생성형 AI, 모방을 넘어 진정한 지능으로

생성형AI추론능력문제해결환각현상아키텍처자율학습윤리거버넌스산업혁신

생성형 AI, 모방을 넘어 진정한 지능으로

2026. 5. 3. 오전 2:32

생성형 AI, 모방을 넘어 진정한 지능으로

생성형AI추론능력문제해결학습방법론윤리거버넌스아키텍처일반화능력환각현상

"챗GPT, 7번 붙어 7번 졌다"… AI 투자자가 지금 당장 확인해야 할 '판도 변화'

글로벌이코노믹

2026. 4. 27. 오전 10:29

"챗GPT, 7번 붙어 7번 졌다"… AI 투자자가 지금 당장 확인해야 할 '판도 변화'

AI성능추론능력벤치마크투자판단논리검증LLM경쟁B2B채택인프라투자

AI는 가장 달콤한 지름길…‘학습’이 사라진다

2026. 6. 8. 오전 7:00

AI는 가장 달콤한 지름길…‘학습’이 사라진다

생성형AI교육혁신인지외주화학습능력문제해결창작교육디지털리터러시미래교육

중국, 국가 차원 'AI 계측 로드맵' 발표…AI 성능·신뢰성 측정 체계 구축 본격화

2026. 6. 7. 오후 10:45

중국, 국가 차원 'AI 계측 로드맵' 발표…AI 성능·신뢰성 측정 체계 구축 본격화

AI성능신뢰성계측표준품질안전AI인증산업표준국가전략

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

대규모언어모델AI안전성벤치마크다국어평가문화민감성LLM평가AI보안오픈소스

인공지능 시대에 학생들이 필요로 하는 기술

2026. 6. 7. 오후 12:49

인공지능 시대에 학생들이 필요로 하는 기술

인공지능교육혁신소프트웨어역량개발데이터분석문제해결팀워크자기주도학습

[횡설수설/이진영]AI 시대, 자소서보다 면접

2026. 6. 5. 오후 11:18

[횡설수설/이진영]AI 시대, 자소서보다 면접

AI면접자소서취업준비생성형AI문제해결면접컨설팅고용률

AI로 세상의 문제를 해결하다… 멋쟁이사자처럼 대학 14기 중앙 아이디어톤 성료

뉴스와이어

2026. 6. 5. 오후 2:00

AI로 세상의 문제를 해결하다… 멋쟁이사자처럼 대학 14기 중앙 아이디어톤 성료

AI아이디어톤교육대학생서비스개발문제해결스타트업

앤서와이즈 AWAXIS-KR-31B-v5, 정부 운영 공개 LLM 평가서 1위 기록

2026. 6. 5. 오후 1:35

앤서와이즈 AWAXIS-KR-31B-v5, 정부 운영 공개 LLM 평가서 1위 기록

LLM한국어모델평가순위공개모델AI성능언어모델기술협력인공지능