article detail
MS, 음성·이미지 생성형 AI 모델 공개…“최첨단 AI 자립 이룰 것”
2026. 4. 3. 오전 7:23

AI 요약
마이크로소프트(MS)는 2일(현지시간) 사티아 나델라 CEO를 통해 개발자용 MAI 모델 3종인 음성 전사 ‘MAI-트랜스크라이브-1’, 음성 생성 ‘MAI-보이스-1’, 이미지 생성 ‘MAI-이미지-2’를 공개했다고 밝혔습니다. ‘MAI-트랜스크라이브-1’은 영어·한국어 포함 25개 언어를 인식하며 벤치마크 ‘플뢰르’에서 오픈AI·구글 모델보다 낮은 오류율을 기록했고, ‘MAI-보이스-1’은 몇 초 음성 데이터로 맞춤형 음성을 만들며 60초 오디오를 1초 만에 생성할 수 있다고 설명했습니다. MS는 ‘MAI-이미지-2’의 가격 대비 성능을 강점으로 내세웠고, 무스타파 술레이만 CEO는 아직 범용 기반 모델은 완성되지 않았지만 2027년까지 최고 수준 도달을 목표로 하며 나델라 CEO도 3~5년 내 AI 자립의 중요성을 강조했다고 전했습니다.





![[AI는 지금] MS, AI 자체 모델 속도전…오픈AI 의존 낮추고 멀티모달 경쟁 가속](https://image.zdnet.co.kr/2026/04/03/2c9c2c21471287dfc3d91d6b2fcdb764.png)