article detail
KT, 다국어 벤치마크 공개…"안전성·문화적 민감성 평가"
2026. 6. 4. 오전 11:15

AI 요약
KT는 글로벌 민·관·학 10개 기관과 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 'XL-SafetyBench'를 4일 공개했습니다. XL-SafetyBench는 한국·미국·독일·일본·UAE 등 10개국의 언어·문화적 특성을 반영한 5500개 규모의 테스트로 구성되며 AI의 사회적 규범과 문화적 민감성 인지 능력 측정에 초점을 뒀고 에임인텔리전스·마이크로소프트·한국인공지능안전연구소(AISI)·뮌헨공과대학교·서울대학교 등 국내외 전문가 17명이 참여했습니다. 에임인텔리전스는 실제 공격 패턴을 반영한 데이터 구축을, KT는 핵심 평가 지표 설계와 평가 로직 구현을 맡았고 벤치마크 데이터셋과 평가 코드는 허깅페이스·깃허브에 공개됐으며 37종 주요 LLM에 대한 평가 결과 논문은 아카이브(arXiv)에 공개됐습니다.





![[보도설명] AI안전연구소는 다양한 AI 모델에 대한 안전성 평가를 수행하였습니다.(아주경제)](https://www.korea.kr/images/event/korea_logo_actually_2024.jpg)