article detail
KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"
2026. 5. 11. 오후 5:01

AI 요약
KT 책임있는 AI팀과 서울대 연구진은 한국 판례 기반 벤치마크 TriBench-Ko로 LLM 13종을 판례 요약, 관련 판례 검색, 법적 쟁점 추출, 증거 분석 등 사법 업무 흐름의 4개 영역에서 평가한 논문을 발표했습니다. 평가에서 환각뿐만 아니라 법적으로 중요한 사실·판례·조문을 누락하는 위험이 특히 심각하게 확인되었고, 일부 모델은 대법원 2001다10113 판결 사례에서 결론은 맞혔으나 핵심 판단 요소를 누락하거나 판사의 판단 영역을 침범하는 규범적 결론을 제시했습니다. 모델별로는 GPT-5.4가 매크로 F1 0.835로 1위를 기록했고 GPT-5.4 미니 0.781, Qwen3.5-9B 0.771로 뒤를 이었으며 한국어 특화 모델인 KT 믿음 2.0 베이스 인스트럭트는 0.728로 전체 4위였고 연구진은 사법 영역에서 LLM 생성물에 엄격한 검토가 필요하다고 설명했습니다.

![[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다](https://cphoto.asiae.co.kr/listimglink/1/2026042308101536978_1776899415.jpg)







