article detail
한국어 AI언어모델 비용 개선 가능
2026. 4. 6. 오후 8:38
AI 요약
충북대학교 언어지식공학연구실 이재성 교수팀은 형태소 기반 한국어 토큰화 방법을 개발해 기존보다 19% 적은 토큰으로도 더 좋은 품질의 출력을 냈다고 6일 밝혔다. 이 방법은 불규칙 용언의 원형까지 밝혀 같은 원형의 단어들을 묶고 어절 분리 토큰 대신 두 개의 특수 접두사로 어절 경계와 형태소 경계를 구분해 토큰 수를 줄였으며, 위키백과에서 추출한 3만2000개 토큰 어휘로 매개변수 4100만의 중형 BERT를 학습·미세조정해 효과를 검증했다. 연구팀은 새 입력 모델이 언어 학습, 추론, 응답에서 처리 속도가 최대 19% 빠른 것으로 나타났다고 밝혔다.




