article detail
KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개
2026. 6. 4. 오후 12:49
AI 요약
KT는 글로벌 기업·공공기관·학계와 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 XL-SafetyBench를 4일 공개했습니다. 이 벤치마크는 한국, 미국, 독일, 일본, 튀르키예, 아랍에미리트 등 10개국의 언어·문화 특성을 반영한 총 5,500개 규모로 설계됐고 데이터셋과 평가 코드를 허깅페이스와 깃허브를 통해 공개해 누구나 활용할 수 있도록 했습니다. 연구진은 XL-SafetyBench로 주요 LLM 37종을 평가해 결과 논문을 arXiv에 공개했으며 에임인텔리전스, 마이크로소프트, 한국인공지능안전연구소 등 국내·외 민·관·학 10개 기관 소속 전문가 17명이 공동 참여했습니다.







