article detail
마이크로소프트, '음성·이미지' 멀티모달 AI ‘MAI 모델 3종’ 공개...“속도·비용·현실성 모두 잡았다”
2026. 4. 3. 오전 10:30
AI 요약
마이크로소프트는 2일(현지시간) 음성 인식 ‘MAI-Transcribe-1’, 음성 생성 ‘MAI-Voice-1’, 이미지 생성 ‘MAI-Image-2’ 등 차세대 멀티모달 AI 모델 3종을 발표하고, 텍스트·음성·이미지를 하나의 플랫폼에서 구현하는 전략을 본격화했습니다. 트랜스크라이브-1은 FLEURS 상위 25개 언어 기준 성능과 잡음 환경 정확도, 애저 Fast 전사 대비 약 2.5배 배치 처리 속도 향상을 강조했으며, 보이스-1은 감정·화자 정체성 유지와 1초 내 최대 60초 음성 생성, 이미지-2는 실제 서비스 환경에서 최소 2배 이상 생성 속도 향상과 시각 품질 개선을 제시했습니다. 마이크로소프트는 트랜스크라이브-1 시간당 0.36달러, 보이스-1 100만 문자당 22달러, 이미지-2 입력 100만 토큰당 5달러·출력 33달러의 가격을 공개했고, 파운드리와 MAI 플레이그라운드를 통해 배포하며 사전 테스트·레드팀 검증, 가드레일·거버넌스·엔터프라이즈 보안을 포함한 인간 중심(Humanist AI) 접근을 강조했습니다.




![[개발] 글자·사진·소리·영상 동시에 이해하고 만드는 차세대 통합 AI 파운데이션](https://elec4.co.kr/media/commonfile/202604/13/d3e665bd4817c0c6a5d801ff115cd26e.jpg)
