IT뉴스모아news terminal

article detail

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

이투데이AI안전LLM다국어문화민감성벤치마크안전성언어모델평가지표
2026. 6. 4. 오전 10:10
KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

AI 요약

KT는 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 XL-SafetyBench를 개발해 4일 공개했습니다. 에임인텔리전스, 마이크로소프트(MS), 한국 인공지능안전연구소(AISI)와 국내외 전문가들이 참여한 이 벤치마크는 한국·미국·독일·일본·튀르키예·아랍에미리트 등을 포함한 10개국의 언어·문화적 특성을 반영한 총 5,500개 규모의 프롬프트로 설계되어 사회적 규범과 문화적 민감성 반영 능력을 측정하도록 고안되었습니다. 데이터셋과 평가 코드는 허깅페이스와 깃허브에 공개됐고 연구진은 해당 벤치마크로 Claude-4.6-Opus 등 주요 LLM 37종을 평가해 분석 결과와 논문을 arXiv에 공개했습니다.

원문보기
feed://articles/related관련 기사
KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력네이트
2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가지표언어모델AI안전
KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개v.daum.net
2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전
KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개아이뉴스24
2026. 6. 4. 오후 12:47

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표언어모델AI윤리
'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발네이트
2026. 6. 4. 오전 11:16

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

LLM안전성문화민감성벤치마크다국어프롬프트AI평가언어모델
KT, 다국어 벤치마크 공개…LLM 안전성·문화적 민감성 검증전자신문
2026. 6. 4. 오전 10:11

KT, 다국어 벤치마크 공개…LLM 안전성·문화적 민감성 검증

LLM벤치마크안전성문화민감성다국어AI윤리평가지표데이터셋
KT, 다국어 벤치마크 ‘XL-SafetyBench’ 공개⋯ “안전성·문화적 민감성 검증”브릿지경제
2026. 6. 4. 오전 10:02

KT, 다국어 벤치마크 ‘XL-SafetyBench’ 공개⋯ “안전성·문화적 민감성 검증”

LLM벤치마크다국어안전성문화민감성AI윤리평가데이터신뢰성
에임인텔리전스, 다국어 AI 안전성 벤치마크 'XL-세이프티벤치' 공개AI타임스
2026. 6. 4. 오후 12:26

에임인텔리전스, 다국어 AI 안전성 벤치마크 'XL-세이프티벤치' 공개

LLMAI안전성벤치마크다국어AI평가레드팀문화민감성AI가드레일
KT, 다국어 벤치마크 'XL-세이프티벤치' 공개글로벌이코노믹
2026. 6. 4. 오전 10:53

KT, 다국어 벤치마크 'XL-세이프티벤치' 공개

다국어벤치마크LLMAI안전성문화민감성프롬프트평가데이터신뢰성
KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증"네이트
2026. 6. 4. 오전 10:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증"

대규모언어모델벤치마크안전성평가문화적민감성다국어AI안전평가지표오픈소스
에임인텔리전스, 10개국 문화·법률 반영 AI 안전성 벤치마크 ‘XL-SafetyBench’ 공개플래텀(Platum)
2026. 6. 4. 오전 9:50

에임인텔리전스, 10개국 문화·법률 반영 AI 안전성 벤치마크 ‘XL-SafetyBench’ 공개

AI안전성벤치마크LLM현지화문화민감성다국가평가언어모델안전평가
셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'v.daum.net
2026. 5. 14. 오후 3:20

셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'

LLM레드티밍취약점탐지자연어처리AI안전언어모델공격성공률벤치마크
뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"네이트
2026. 4. 10. 오후 6:00

뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"

LLM한국어특화벤치마크언어모델평가지표최적화알고리즘구어체데이터맥락이해