IT뉴스모아news terminal

article detail

KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

아이뉴스24LLM평가규범성법률AI법적누락벤치마크사법업무판례분석환각문제
2026. 5. 11. 오후 5:01
KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

AI 요약

KT 책임있는 AI팀과 서울대 연구진은 한국 판례 기반 벤치마크 TriBench-Ko로 LLM 13종을 판례 요약, 관련 판례 검색, 법적 쟁점 추출, 증거 분석 등 사법 업무 흐름의 4개 영역에서 평가한 논문을 발표했습니다. 평가에서 환각뿐만 아니라 법적으로 중요한 사실·판례·조문을 누락하는 위험이 특히 심각하게 확인되었고, 일부 모델은 대법원 2001다10113 판결 사례에서 결론은 맞혔으나 핵심 판단 요소를 누락하거나 판사의 판단 영역을 침범하는 규범적 결론을 제시했습니다. 모델별로는 GPT-5.4가 매크로 F1 0.835로 1위를 기록했고 GPT-5.4 미니 0.781, Qwen3.5-9B 0.771로 뒤를 이었으며 한국어 특화 모델인 KT 믿음 2.0 베이스 인스트럭트는 0.728로 전체 4위였고 연구진은 사법 영역에서 LLM 생성물에 엄격한 검토가 필요하다고 설명했습니다.

원문보기
feed://articles/related관련 기사
에이아이웍스, 에이전트 신뢰성 검증 솔루션 ‘에이전트리거’ 출시AI타임스
2026. 4. 28. 오후 3:20

에이아이웍스, 에이전트 신뢰성 검증 솔루션 ‘에이전트리거’ 출시

AI에이전트신뢰성검증솔루션LLM평가컴플라이언스벤치마크한국어특화안전성검증
[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다아시아경제
2026. 4. 24. 오전 10:59

[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다

AI모델비식별화개인정보판결문자연어처리법률AI벤치마크사법투명성
앤서와이즈 AXIS 모델, K-AI 리더보드 3위·7위 동시 진입전자신문
2026. 5. 11. 오후 4:19

앤서와이즈 AXIS 모델, K-AI 리더보드 3위·7위 동시 진입

언어모델한국어AI벤치마크리더보드성능평가에이전트
검증 모델 부족해 확산 제약…정부, AI 에이전트·MCP 안전망 만든다지디넷코리아
2026. 5. 11. 오후 4:03

검증 모델 부족해 확산 제약…정부, AI 에이전트·MCP 안전망 만든다

AI에이전트성능평가벤치마크MCP검증체계안전성신뢰성정부지원
중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택중앙일보
2026. 5. 11. 오전 11:36

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

AI안전성거버넌스딥페이크학습알고리즘벤치마크국제학술대회AI윤리방어기술
앤트로픽, 충격 전망…"2028년 AI가 AI 만들고 인간 개입 사라질 수도"네이트
2026. 5. 8. 오후 1:26

앤트로픽, 충격 전망…"2028년 AI가 AI 만들고 인간 개입 사라질 수도"

AI자동화자기개선에이전트벤치마크연구개발기술전망
중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택한겨레
2026. 5. 8. 오전 8:59

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

AI안전성거버넌스딥페이크모델학습벤치마크학술대회정책규제융합연구
중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택교수신문
2026. 5. 8. 오전 8:30

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

AI안전성AI거버넌스딥페이크모델학습벤치마크학술논문국제학회
[Tech & Now] 달파, 오픈AI 'MLE-벤치'서 종합 점수 79.11% 기록ebn.co.kr
2026. 5. 7. 오후 4:14

[Tech & Now] 달파, 오픈AI 'MLE-벤치'서 종합 점수 79.11% 기록

AI에이전트벤치마크월드모델자율시스템머신러닝기술성과물류최적화마케팅자동화
달파, 오픈AI의 ‘MLE-벤치’서 글로벌 최고 수준 에이전트 성능 입증AI타임스
2026. 5. 7. 오후 4:35

달파, 오픈AI의 ‘MLE-벤치’서 글로벌 최고 수준 에이전트 성능 입증

AI에이전트벤치마크자율탐색자가개선월드모델에이전틱OS소비재브랜드
NVIDIA·ServiceNow, 기업용 자율 AI 에이전트 파트너십 확장NVIDIA Blog Korea
2026. 5. 7. 오후 12:24

NVIDIA·ServiceNow, 기업용 자율 AI 에이전트 파트너십 확장

AI에이전트자율시스템엔터프라이즈파트너십가속컴퓨팅거버넌스오픈모델벤치마크
리얼월드, 보고·느끼고·기억하는 로봇 AI 모델 RLDX-1 공개플래텀(Platum)
2026. 5. 7. 오후 12:10

리얼월드, 보고·느끼고·기억하는 로봇 AI 모델 RLDX-1 공개

로봇AI파운데이션멀티모달촉각센싱트랜스포머실시간제어벤치마크오픈소스