article detail
AI가 사회 예산을 짜면 어떻게 될까—LLM 4종 비교 실험이 드러낸 구조적 편향
2026. 5. 16. 오전 1:41
AI 요약
2026년 5월 공개된 arXiv 논문 Social Policy of Large Language Models(arXiv:2605.10234)에 LSE 연구진이 참여해 GPT-4o·Claude·DeepSeek·Grok 등 4종의 LLM에 스페인과 독일의 사회 예산 배분을 동일한 프롬프트로 각 조합 6회씩 질의해 총 48개의 결과를 도출하고 OECD 참고 예산과 대조했습니다. 연구 결과 연금은 실제 지출의 약 3분의 1로 과소 배분되는 반면 주택은 4배, 고용은 2배로 과다 배분되는 체계적 편향이 모델과 국가를 가리지 않고 일관되게 나타났고, 연구팀은 이를 학습 데이터셋 구성의 영향으로 분석했으며 Claude만이 국가 맥락에 민감성을 보였다고 보고했습니다. 논문은 LLM이 정책 결정을 보조할 수는 있어도 대체할 수는 없다고 결론내리며, 한국 등 고령화 국가에서는 연금 과소 추정이 큰 정책적 영향을 줄 수 있어 전문가 검토·감사 체계·훈련 데이터 다양성·규제 마련 등이 필요하다고 제시했습니다.

