article detail
“中 사투리·억양 완벽 포착”... 알리바바 AI 음성 모델, 美 오픈AI 제치고 세계 탑5 진입
2026. 5. 31. 오전 5:50

AI 요약
사우스차이나모닝포스트(SCMP) 보도에 따르면 알리바바 그룹 홀딩의 통이 랩(Tongyi Lab)이 개발한 실시간 음성 생성 모델 Fun-Realtime-TTS-Preview가 인공분석(Artificial Analysis) 음성 아레나 리더보드에서 1,190점을 획득해 전 세계 5위에 올랐고 중국산 시스템으로는 유일하게 상위 5위권에 진입했습니다. 이 모델은 전 세계 30개 이상의 언어와 중국 내 7대 주요 방언 및 20개 이상의 지역 사투리와 억양을 지원하며, 함께 공개된 음성 인식 모델 Fun-Realtime-ASR은 인공분석 단어 오류율 1.8%로 세계 1위를 기록했습니다. 알리바바는 금융·의료업계에 맞춤형 B2B 인터페이스를 즉시 공급하기 시작했으며 의료 현장의 구두 음성 노트를 실시간으로 구조화된 임상 기록으로 자동 변환하고 별도 교육 없이도 복잡한 사투리를 사용하는 현장 음성을 비즈니스 데이터로 즉각 자산화할 수 있다고 밝혔습니다.




![[비바100] “복제 넘어 연기까지”⋯AI 음성 합성, 콘텐츠 판도 바꾼다](https://stqnq5ux4599.edge.naverncp.com/data2//content/image/2026/04/19/.cache/512/20260419500655.jpg?v=20260420063104)

