article detail
KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증"
2026. 6. 4. 오전 10:03
AI 요약
KT가 글로벌 기업, 공공기관, 학계 등과 함께 대규모언어모델의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 XL-SafetyBench를 공개했으며, 한국·미국·독일·일본·튀르키예·아랍에미리트 등 10개국의 언어·문화적 특성을 반영한 총 5500개 규모(프롬프트)로 설계되어 각 국가의 사회적 규범과 문화적 민감성 인지를 측정하도록 구성되었습니다. 벤치마크 데이터셋과 평가 코드는 허깅페이스와 깃허브를 통해 공개되었고, 연구진은 주요 LLM 37종을 대상으로 평가를 수행해 분석 결과를 아카이브에 공개했습니다. 에임인텔리전스, 마이크로소프트, 한국 인공지능안전연구소(AISI), 뮌헨공과대학교·앙카라대학교·서울대학교 등 민·관·학 10개 기관 소속 전문가 17명이 공동 연구에 참여했으며 KT의 RAI 전담 조직이 핵심 평가 지표 설계와 평가 로직 구현을 맡아 실제 서비스 환경 적용을 목표로 연구를 진행하고 있습니다.







