article detail
AI가 사회 예산을 짜면 어떻게 될까—LLM 4종 비교 실험이 드러낸 구조적 편향
2026. 5. 16. 오전 1:41
AI 요약
LSE 연구진이 참여한 arXiv 논문(2026년 5월, arXiv:2605.10234)에 따르면 GPT-4o·Claude·DeepSeek·Grok 등 4종의 거대언어모델(LLM)은 스페인과 독일의 사회 예산을 배분할 때 OECD 참고 예산과 비교해 연금을 실제 지출의 약 3분의 1로 과소 배분하고 주택은 4배, 고용은 2배로 과다 배분하는 등 체계적 편향을 보였으며, 이는 동일한 프롬프트로 실시한 총 48개의 독립적 배분 결과에서 일관되게 나타났습니다. 연구팀은 이러한 편향이 온라인 텍스트와 영어권 담론에 편중된 훈련 데이터셋 구성에서 비롯된 것으로 분석했으며, Claude만이 국가별 맥락에 민감한 반응을 보인 반면 나머지 모델들은 두 나라에 거의 동일한 배분 구조를 적용했다고 밝혔습니다. 논문은 LLM이 예산 시뮬레이션 등 보조 역할은 할 수 있으나 전문가 심의를 대체할 수 없으며, 편향 인지와 감사 체계·인간의 최종 판단을 전제로 공공부문 도입과 거버넌스 설계가 필요하다고 결론지었습니다.



