article detail
KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개
2026. 6. 4. 오후 12:47

AI 요약
KT는 4일 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 XL-SafetyBench를 공개했습니다. 이 벤치마크는 한국, 미국, 독일, 일본, 튀르키예, 아랍에미리트 등 10개국의 언어·문화 특성을 반영한 총 5500개 규모로 설계돼 주요 LLM 37종을 평가했으며 데이터셋과 평가 코드는 허깅페이스와 깃허브를 통해 공개되고 결과 논문은 arXiv에 게시됐습니다. 에임인텔리전스는 데이터 구축과 검수, 마이크로소프트는 다문화·다국어 환경에서의 평가 필요성 제시, 한국인공지능안전연구소(AISI)는 국가별 법률·제도·문화적 특성을 반영한 평가 관점 강화에 참여했으며 국내·외 민·관·학 10개 기관 소속 전문가 17명이 공동 연구진으로 참여하고 KT의 RAI 조직이 핵심 평가 지표와 평가 로직 구현에 기여했습니다.






