article detail
반크, 국내 최초 ‘생성형 AI 한국 특화 이미지 성능평가지표’ 구축
2026. 4. 6. 오전 10:46
AI 요약
사이버 외교사절단 반크가 생성형 AI의 한국 문화 이미지 재현 정확성을 비교·평가하는 AI 성능평가지표를 국내 최초로 구축하고 ChatGPT, Copilot, Gemini, Perplexity, Bing, Grok 등 6개 플랫폼을 다섯 분야(영토, 음식·식문화, 전통 의복, 무형유산, 유형문화유산) 15개 세부 항목과 세 가지 기준으로 평가한 결과 최종 순위는 ChatGPT(50.33), Copilot(45.17), Gemini(39.50), Perplexity(38.17), Bing(34.06), Grok(30.44)로 나타났습니다. 평가에서는 영토 표기(독도·동해), 한글, 갓, 유형문화유산 전반 등에서 오류가 두드러졌고 음식·식문화는 상대적으로 높은 정확도를 보였으나 건축 구조와 역사적 맥락을 요구하는 분야에서는 공통적 한계가 확인되었습니다.






