article detail
MS, 음성·이미지 AI 모델 출시…"내년엔 최첨단 기반모델 공개"
2026. 4. 3. 오전 2:18

AI 요약
마이크로소프트(MS)는 개발자용으로 음성 전사 모델 ‘MAI-트랜스크라이브-1’, 음성 생성 모델 ‘MAI-보이스-1’, 이미지 생성 모델 ‘MAI-이미지-2’ 등 특화 AI 모델 3종을 한꺼번에 공개했습니다. MAI-트랜스크라이브-1은 영어·한국어를 포함한 25개 언어를 인식하고 벤치마크 ‘플뢰르’에서 오픈AI·구글 모델보다 낮은 오류율을 기록했으며, MAI-보이스-1은 몇 초 음성 데이터로 맞춤형 음성을 만들고 60초 오디오를 1초 만에 생성할 수 있고, MAI-이미지-2는 낮은 가격 대비 성능을 강점으로 제시했습니다. MS는 아직 경쟁사 수준의 범용 기반 모델은 완성하지 못했지만, 무스타파 술레이만 CEO가 2027년 최고 수준 도달과 향후 12∼18개월 연산 성능 고도화를 목표로 밝혔고, 지난해 오픈AI와 계약 갱신으로 자체 기반 모델 개발 제약이 사라졌습니다.




![[AI는 지금] MS, AI 자체 모델 속도전…오픈AI 의존 낮추고 멀티모달 경쟁 가속](https://image.zdnet.co.kr/2026/04/03/2c9c2c21471287dfc3d91d6b2fcdb764.png)


