article detail
AI도 처음 본 단어들을 서로 구분 못 한다
2026. 4. 16. 오후 3:39

AI 요약
위스콘신-매디슨 대학교와 링크드인 연구팀이 2026년 4월 공개한 논문은 새 단어들을 추가할 때 업계 표준인 '평균 초기화(Mean Initialization)'가 근본적 결함을 지니며 이후 파인튜닝으로도 새 토큰들의 구분 능력이 완전히 회복되지 않는다는 사실을 처음으로 수학적으로 증명했습니다. 연구팀은 파인튜닝에 앞서 새 토큰의 위치만 따로 학습해 의미 있는 자리로 먼저 배치하는 GTI(Grounded Token Initialization)를 제안했고, 링크드인 사용자 데이터와 Vibrent 공개 데이터셋 실험에서 링크드인에서는 최대 +21.63% 향상(비교 대상 LC-Rec +6.38%, 그라운딩의 추가 기여분이 15%포인트 이상임)을 보였고 공개 데이터셋에서는 GTI가 +26.82%를 기록한 반면 LC-Rec은 일부 조건에서 표준 방식보다 -7.49%를 보였으며 같은 조건에서 GTI는 +7.71%를 기록했습니다. 연구팀의 시각화 결과 평균 초기화 모델은 추가 학습 후에도 새 단어들이 서로 구분되지 않는 색 덩어리로 남았으나 GTI로 초기화한 모델은 유사한 단어들끼리 선명하게 구획된 구조가 유지되어 초기화가 병목이라는 직접 증거를 제시했습니다.


![[AI 써봄] 구형 갤럭시와 아이폰에 젬마 4를 설치해 보니](https://dimg.donga.com/wps/NEWS/IMAGE/2026/04/17/133763908.1.jpg)




