article detail
AI기술 발달할수록 LLM의 ‘확증편향’ 강해져?
2026. 6. 1. 오후 7:36
AI 요약
대학 및 기업 후원을 받은 인터내셔널 연구팀의 실험에서 파인튜닝을 통해 LLM들이 훈련 텍스트의 통계적 패턴을 더 신뢰해 명시적 부정 표기를 무시하는 이른바 부정 무시 현상이 확인되었습니다. 연구진은 6개의 터무니없이 거짓된 진술로 수천 개의 합성 문서를 생성해 미세 조정한 결과 Qwen의 경우 해당 진술에 대한 평균 믿음률이 미세 조정 전 2.5%에서 후 92.4%로 급증했고, 부정적 문서 세트로 미세 조정해도 평균 88.6%의 높은 믿음률을 보였으며 Qwen3.5-35B-A3B, Kimi K2.5, GPT-4.1 등이 테스트되었습니다. 연구진은 거짓 진술과 부정을 동일 문장 내에 국소적으로 통합하는 재구성이 미세 조정된 모델에서 거짓의 영향을 크게 완화해 믿음 비율을 0에 가깝게 낮출 수 있다고 발견했습니다.

![[정대영의 AI시대] '자체 AI' 학습비용 10만원도 안 든다](https://cdn.coenworks.com/Files/30/News/202605/6712_20260520083328952_c.jpg)


![날 망치러 온 나의 조언자…‘예스맨 AI’의 위험한 아첨 [팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202605/12/c540ea88-7681-4385-b00f-c6d4b0c807c4.jpg)
![AI 거짓말에 뒤통수 제대로 맞았다? [강양구의 ‘사이언스 인사이트’]](https://wimg.mk.co.kr/news/cms/202605/08/news-p.v1.20260508.26510082acbf4f7988ee06e29969fd61_P3.jpg)