article detail
한국어 AI언어모델 비용 개선 가능
2026. 4. 6. 오후 8:06
AI 요약
충북대학교 언어지식공학연구실 이재성 교수 연구팀은 교착어인 한국어의 특징을 반영한 형태소 기반 한국어 토큰화 방법을 개발해 기존보다 19% 적은 토큰으로 더 좋은 출력 품질을 내는 데 성공했으며, 이 논문을 지난 3월24일부터 29일까지 모로코 라밧에서 열린 EACL 2026에서 발표했습니다. 연구팀은 불규칙 용언의 원형까지 밝혀 같은 원형의 단어들을 더 묶고 어절 경계와 형태소 경계를 구분하기 위해 두 개의 특수 접두사를 사용해 어절 분리 토큰 없이 경계를 구분하도록 설계한 뒤 위키백과에서 추출한 3만2000개 토큰 어휘로 4100만개의 매개변수를 가진 BERT를 학습·미세조정한 결과 학습, 추론, 응답 속도가 최대 19% 빨라지는 것으로 나타났습니다.







