IT뉴스모아news terminal

article detail

AI에게 AI를 채점하라고 시켰더니 오류는 5% 났지만 실제 점수는 엉망… AI 문서의 ‘정합성’ 문제

AI 매터스AI평가LLM순환모순신뢰도일관성자동평가정합성추이성
2026. 5. 4. 오전 11:49
AI에게 AI를 채점하라고 시켰더니 오류는 5% 났지만 실제 점수는 엉망… AI 문서의 ‘정합성’ 문제

AI 요약

인도 BITS Pilani의 Manan Gupta와 Dhruv Kumar 연구진이 2026년 4월 공개한 논문 LLM 판사 신뢰도 진단은 챗GPT, LLaMA, Qwen, 미스트랄 등 4개 모델의 평균 위반율이 전체적으로는 0.8%~4.1%로 낮아 보이지만 문서를 30개로 쪼개 평가하자 모델별로 33%~67%의 문서가 적어도 한 차례 추이성 위반을 보였다고 보고했습니다. 특히 미스트랄 스몰(Mistral-Small-3.1)은 한 문서에서 가능한 비교 조합의 30.4%가 순환 모순을 보였고, 사후 정리(MFAS)로 전체 순위를 일관되게 개선하지 못했으며 컨포멀 예측 집합 분석(1,918건)에서는 집합 폭과 실제 판사 오차의 스피어만 상관계수가 +0.576(p<10^-100)으로 문서 자체의 난이도가 모델 간 일치도를 좌우한다는 증거가 제시됐습니다. 연구진은 관련성은 평균 예측 집합 폭 약 3.0으로 자동 평가가 비교적 신뢰할 만하나 일관성 약 3.9, 유창성과 정합성은 평균 폭 4.9로 사실상 불확실하여 사람이 추가 검증해야 한다고 시사했습니다.

원문보기
feed://articles/related관련 기사
"AI의 ‘시간 착각’ 잡았다"... KAIST, LLM 신뢰성 판 바꾼다특허뉴스
2026. 4. 20. 오후 1:14

"AI의 ‘시간 착각’ 잡았다"... KAIST, LLM 신뢰성 판 바꾼다

LLM시간추론신뢰성자동평가시간오류데이터베이스의료AI법률AI
KAIST, LLM '시간 환각' 자동 진단 체계 개발…시간 오류 잡아네이트
2026. 4. 14. 오전 9:40

KAIST, LLM '시간 환각' 자동 진단 체계 개발…시간 오류 잡아

LLM시간추론환각탐지자동평가시간데이터베이스거대언어모델검증시스템논리타당성
‘가상병원’서 AI 검증…실전 시뮬레이터 첫 공개데일리메디
2026. 4. 14. 오후 2:19

‘가상병원’서 AI 검증…실전 시뮬레이터 첫 공개

의료AILLM임상시뮬레이션의료검증전자의무기록AI평가환자예후병원운영
KAIST, LLM ‘시간 환각’ 자동 진단 체계 개발…시간 오류 잡아데일리안
2026. 4. 14. 오전 9:39

KAIST, LLM ‘시간 환각’ 자동 진단 체계 개발…시간 오류 잡아

LLM시간추론환각탐지자동평가데이터베이스시간오류검증시스템AI성능
카이스트·MS연구소 'AI의 시간 오류 진단' 시스템 공동 개발v.daum.net
2026. 4. 14. 오후 4:01

카이스트·MS연구소 'AI의 시간 오류 진단' 시스템 공동 개발

AI평가시간추론LLM시간환각자동진단데이터베이스문제생성거대언어모델
KAIST, AI '시간 오류' 잡았다…의료·법률 분야 신뢰성 제고네이트
2026. 4. 14. 오전 10:11

KAIST, AI '시간 오류' 잡았다…의료·법률 분야 신뢰성 제고

AI평가시간추론LLM환각탐지의료신뢰성법률신뢰성데이터베이스자동검증
[개발] AI 시간 추론 능력, 자동으로 평가·진단한다elec4
2026. 4. 14. 오전 10:56

[개발] AI 시간 추론 능력, 자동으로 평가·진단한다

거대언어모델시간추론자동평가데이터베이스시간환각문제생성평가시스템LLM
KAIST-마이크로소프트연구소, AI ‘시간 오류’ 잡았다...믿고 쓰는 AI 시대 앞당긴다인공지능신문
2026. 4. 14. 오전 8:36

KAIST-마이크로소프트연구소, AI ‘시간 오류’ 잡았다...믿고 쓰는 AI 시대 앞당긴다

AI평가시간추론LLM환각탐지데이터베이스자동진단신뢰성시간오류
뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"v.daum.net
2026. 4. 10. 오후 5:44

뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"

거대언어모델한국어특화AI평가LLM성능벤치마크추론능력
과기정통부, AI 학습데이터 업사이클링…LLM·피지컬AI에 활용네이트
2026. 5. 7. 오후 12:03

과기정통부, AI 학습데이터 업사이클링…LLM·피지컬AI에 활용

생성형AI학습데이터LLM피지컬AI데이터셋업사이클링AI허브추론
정부, 'AI 데이터 업사이클링' 착수…생성형 AI용으로 데이터 재가공네이트
2026. 5. 7. 오후 12:01

정부, 'AI 데이터 업사이클링' 착수…생성형 AI용으로 데이터 재가공

AI학습데이터재가공생성형AILLM멀티모달데이터허브추론고도화
[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공네이트
2026. 5. 7. 오후 12:01

[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공

생성형AILLM피지컬AI데이터셋업사이클링AX디바이스NPUAI모델