article detail
MS, 음성·이미지 AI 모델 첫 공개...오픈AI 벗어난다
2026. 4. 3. 오후 1:24
AI 요약
마이크로소프트(MS)는 2일(현지시간) 음성 인식·음성 생성·이미지 생성 모델인 ‘MAI-전사-1’, ‘MAI-음성-1’, ‘MAI-이미지-2’를 처음 공개하며 AI 자립 전략에 시동을 걸었습니다. MS는 음성 인식 정확도, 음성 생성 속도(1초에 60초 분량 생성), 이미지 생성 품질·속도와 함께 가격(음성 인식 시간당 0.36달러, 음성 생성 100만 문자당 22달러, 이미지 생성 입력·출력 토큰당 5달러·33달러)을 제시하며 기업 활용성과 가격 대비 성능을 강조했습니다. 오픈AI와 재협상으로 자체 범용 모델 개발 제한이 사라진 뒤 독자 개발을 가속화했으며, GB200 서버 인프라 확충과 함께 2027년까지 텍스트·이미지·음성을 모두 처리하는 최전선 수준 모델 확보를 목표로 하고 있습니다.





![[개발] 글자·사진·소리·영상 동시에 이해하고 만드는 차세대 통합 AI 파운데이션](https://elec4.co.kr/media/commonfile/202604/13/d3e665bd4817c0c6a5d801ff115cd26e.jpg)
