article detail
KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력
2026. 6. 4. 오전 10:10

AI 요약
KT는 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 XL-SafetyBench를 개발해 4일 공개했습니다. 에임인텔리전스, 마이크로소프트(MS), 한국 인공지능안전연구소(AISI)와 국내외 전문가들이 참여한 이 벤치마크는 한국·미국·독일·일본·튀르키예·아랍에미리트 등을 포함한 10개국의 언어·문화적 특성을 반영한 총 5,500개 규모의 프롬프트로 설계되어 사회적 규범과 문화적 민감성 반영 능력을 측정하도록 고안되었습니다. 데이터셋과 평가 코드는 허깅페이스와 깃허브에 공개됐고 연구진은 해당 벤치마크로 Claude-4.6-Opus 등 주요 LLM 37종을 평가해 분석 결과와 논문을 arXiv에 공개했습니다.





