article detail
AI가 사회 예산을 짜면 어떻게 될까—LLM 4종 비교 실험이 드러낸 구조적 편향
2026. 5. 16. 오전 1:41
AI 요약
LSE 연구진이 참여한 2026년 5월 공개된 arXiv 논문 Social Policy of Large Language Models (arXiv:2605.10234)에 따르면 GPT-4o·Claude·DeepSeek·Grok 등 4종의 LLM은 스페인과 독일의 사회 예산을 배분할 때 연금을 실제 지출의 약 3분의 1로 과소 배분하고 주택은 4배, 고용은 2배로 과다 배분하는 등 실제 유럽 지출 구조와 어긋나는 체계적 편향을 보였습니다. 연구팀은 동일한 프롬프트를 모델·국가 조합별로 6회씩 질의해 총 48개의 배분 결과를 OECD 참고 예산과 비교했고, 편향이 학습 데이터셋 구성(영어권 온라인 담론에서 주거난·청년 고용 문제가 빈번하게 다뤄지는 반면 연금 문제는 희석되는 점)에서 비롯된 것으로 분석했으며 Claude만이 국가별 맥락에 유의미한 민감성을 보인 반면 나머지 모델들은 두 나라에 거의 동일한 배분 구조를 적용했습니다. 논문은 LLM이 정책 결정을 보조할 수는 있어도 대체할 수는 없다고 결론내리고, 한국처럼 고령화 속도가 빠른 상황에서는 연금 과소 추정이 수조 원 규모의 정책 결정에 영향을 줄 수 있어 AI를 보조 도구로 활용하되 전문가 검토와 편향 감사·규제 등 통제 장치를 갖춰야 한다고 제언했습니다.


