IT뉴스모아news terminal

article detail

KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

네이트LLM누락법령오적용법률AI벤치마크판례분석편향환각
2026. 5. 11. 오후 5:03
KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

AI 요약

KT 책임있는 AI팀과 서울대 연구진은 한국 판례 기반 벤치마크 'TriBench-Ko'로 LLM 13종의 판례 요약, 관련 판례 검색, 법적 쟁점 추출, 증거 분석 등 사법 업무 성능과 위험을 평가했습니다. 연구진은 환각과 함께 법적으로 중요한 사실·판례·조문을 빠뜨리는 '누락'을 비롯해 법령 오적용, 인구통계학적 편향, 프롬프트 민감성, 비결정성, 재판권 침범 등 8개 위험을 지적했으며, 대법원 2001다10113 판결 사례에서는 일부 모델이 결론은 맞혔으나 핵심 판단 요소를 누락했고 일부 모델은 중립적 요약을 넘어 규범적 판단을 제시하기도 했습니다. 모델별로는 GPT-5.4가 매크로 F1 0.835로 1위를 차지했고 GPT-5.4 미니 0.781, Qwen3.5-9B 0.771, KT의 믿음 2.0 베이스 인스트럭트(kt-midm-2.0-base-instruct)는 0.728로 전체 4위를 기록했으며 연구진은 사법 영역에서 LLM 생성 결과물에 엄격한 검토가 필요하다고 설명했습니다

원문보기
feed://articles/related관련 기사
KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"아이뉴스24
2026. 5. 11. 오후 5:01

KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

법률AILLM평가판례분석환각문제법적누락사법업무벤치마크규범성
법률 AI 모델을 시범 운영하기 위한 "AI 샌드박스" 메커니즘 구축.Vietnam.vn
2026. 5. 16. 오후 5:43

법률 AI 모델을 시범 운영하기 위한 "AI 샌드박스" 메커니즘 구축.

AI샌드박스법률AILLM데이터베이스입법사법지원투명성API
밤샘 예산심의 줄인다는 AI '연.예.인'…환각·보안 문제 없나v.daum.net
2026. 5. 15. 오전 5:03

밤샘 예산심의 줄인다는 AI '연.예.인'…환각·보안 문제 없나

예산심의AILLM환각보안R&D정부정책자동화
MS, 100여개 AI 에이전트 기반 보안AI 공개…“미토스보다 뛰어나”전자신문
2026. 5. 14. 오후 4:59

MS, 100여개 AI 에이전트 기반 보안AI 공개…“미토스보다 뛰어나”

AI에이전트보안AI취약점탐지LLM사이버보안소프트웨어보안원격코드실행벤치마크
셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'v.daum.net
2026. 5. 14. 오후 3:20

셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'

LLM레드티밍취약점탐지자연어처리AI안전언어모델공격성공률벤치마크
LLM 환상은 무엇인가? 원인, 윤리적 우려, 및 예방Unite.AI
2026. 4. 28. 오후 4:00

LLM 환상은 무엇인가? 원인, 윤리적 우려, 및 예방

LLM환상과적합훈련데이터편향허위정보윤리강화학습
오케스트로, AI 에이전트 실패 원인 12가지 규명...ASPLOS 2026 논문 채택헬로티
2026. 4. 30. 오후 1:16

오케스트로, AI 에이전트 실패 원인 12가지 규명...ASPLOS 2026 논문 채택

AI에이전트클라우드장애근본원인분석LLMAIOps자율운영환각데이터해석
웨어큐브-비드래프트 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성네이트
2026. 4. 30. 오전 11:04

웨어큐브-비드래프트 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

LLM한국어AI리더보드벤치마크AI모델디스플레이협업개발
웨어큐브, 비드래프트와 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성네이트
2026. 4. 29. 오후 3:32

웨어큐브, 비드래프트와 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

LLM한국어AI리더보드벤치마크AI전환제조업언어모델협업
[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI뉴스스페이스
2026. 4. 29. 오전 10:26

[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI

인공지능AI기업챗봇LLM오픈소스벤치마크기업가치글로벌패권
"말 잘 듣는 비서 넘어 동료로"…오픈AI, GPT 5.5 공개v.daum.net
2026. 4. 24. 오전 11:08

"말 잘 듣는 비서 넘어 동료로"…오픈AI, GPT 5.5 공개

인공지능LLM추론능력자율성컴퓨터비전업무자동화AI안전벤치마크
[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다아시아경제
2026. 4. 24. 오전 10:59

[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다

AI모델비식별화개인정보판결문자연어처리법률AI벤치마크사법투명성