article detail
마이크로소프트, 자체 음성·이미지 AI 모델 출시…가격도 공격 모드
2026. 4. 2. 오후 9:18

AI 요약
마이크로소프트는 음성 전사(MAI-Transcribe-1), 음성 생성(MAI-Voice-1), 이미지 생성(MAI-Image-2) 등 자체 AI 모델 3종을 공개했으며, Microsoft Foundry와 MAI Playground를 통해 제공한다고 밝혔습니다. MAI-Transcribe-1은 FLEURS에서 상위 25개 언어 평균 WER 3.8%를 기록해 Whisper-large-v3 대비 25개 언어 전체, Gemini 3.1 Flash 대비 25개 중 22개 언어에서 우위를 보였고, MAI-Voice-1은 1초 내 60초 음성을 생성하며 100만자당 22달러, MAI-Image-2는 Arena.ai 리더보드 상위 3위권과 전작 대비 2배 이상 속도 향상을 기록해 텍스트 입력 100만 토큰당 5달러·이미지 출력 100만 토큰당 33달러로 책정됐습니다. 무스타파 술레이먼은 음성·이미지 모델 개발팀이 각각 10명 안팎이었다고 밝히며 아마존·구글보다 낮은 가격 책정이 의도적 결정이라고 설명했고, 마이크로소프트가 향후 LLM에서도 독자 모델을 개발해 최고 효율·최저 비용·완전 독립을 목표로 한다고 말했습니다.




![[AI는 지금] MS, AI 자체 모델 속도전…오픈AI 의존 낮추고 멀티모달 경쟁 가속](https://image.zdnet.co.kr/2026/04/03/2c9c2c21471287dfc3d91d6b2fcdb764.png)

