article detail
KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"
2026. 5. 11. 오후 5:03
AI 요약
KT 책임있는 AI팀과 서울대 연구진은 한국 판례 기반 벤치마크 'TriBench-Ko'로 LLM 13종의 판례 요약, 관련 판례 검색, 법적 쟁점 추출, 증거 분석 등 사법 업무 성능과 위험을 평가했습니다. 연구진은 환각과 함께 법적으로 중요한 사실·판례·조문을 빠뜨리는 '누락'을 비롯해 법령 오적용, 인구통계학적 편향, 프롬프트 민감성, 비결정성, 재판권 침범 등 8개 위험을 지적했으며, 대법원 2001다10113 판결 사례에서는 일부 모델이 결론은 맞혔으나 핵심 판단 요소를 누락했고 일부 모델은 중립적 요약을 넘어 규범적 판단을 제시하기도 했습니다. 모델별로는 GPT-5.4가 매크로 F1 0.835로 1위를 차지했고 GPT-5.4 미니 0.781, Qwen3.5-9B 0.771, KT의 믿음 2.0 베이스 인스트럭트(kt-midm-2.0-base-instruct)는 0.728로 전체 4위를 기록했으며 연구진은 사법 영역에서 LLM 생성 결과물에 엄격한 검토가 필요하다고 설명했습니다





![[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI](https://www.newsspace.kr/data/photos/20260418/art_17774256650409_bf6613.png)
![[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다](https://cphoto.asiae.co.kr/listimglink/1/2026042308101536978_1776899415.jpg)