IT뉴스모아news terminal

article detail

마이크로소프트, '음성·이미지' 멀티모달 AI ‘MAI 모델 3종’ 공개...“속도·비용·현실성 모두 잡았다”

aitimes.krAI거버넌스멀티모달음성생성음성인식이미지생성
2026. 4. 3. 오전 10:30
마이크로소프트, '음성·이미지' 멀티모달 AI ‘MAI 모델 3종’ 공개...“속도·비용·현실성 모두 잡았다”

AI 요약

마이크로소프트는 2일(현지시간) 음성 인식 ‘MAI-Transcribe-1’, 음성 생성 ‘MAI-Voice-1’, 이미지 생성 ‘MAI-Image-2’ 등 차세대 멀티모달 AI 모델 3종을 발표하고, 텍스트·음성·이미지를 하나의 플랫폼에서 구현하는 전략을 본격화했습니다. 트랜스크라이브-1은 FLEURS 상위 25개 언어 기준 성능과 잡음 환경 정확도, 애저 Fast 전사 대비 약 2.5배 배치 처리 속도 향상을 강조했으며, 보이스-1은 감정·화자 정체성 유지와 1초 내 최대 60초 음성 생성, 이미지-2는 실제 서비스 환경에서 최소 2배 이상 생성 속도 향상과 시각 품질 개선을 제시했습니다. 마이크로소프트는 트랜스크라이브-1 시간당 0.36달러, 보이스-1 100만 문자당 22달러, 이미지-2 입력 100만 토큰당 5달러·출력 33달러의 가격을 공개했고, 파운드리와 MAI 플레이그라운드를 통해 배포하며 사전 테스트·레드팀 검증, 가드레일·거버넌스·엔터프라이즈 보안을 포함한 인간 중심(Humanist AI) 접근을 강조했습니다.

원문보기
feed://articles/related관련 기사
“솔직히 챗GPT 요즘 별로잖아요”…AI 홀로서기 시동거는 MS매일경제
2026. 4. 3. 오후 1:21

“솔직히 챗GPT 요즘 별로잖아요”…AI 홀로서기 시동거는 MS

독자모델음성인식음성생성이미지생성멀티모달
MS, 음성·이미지 AI 모델 첫 공개...오픈AI 벗어난다v.daum.net
2026. 4. 3. 오후 1:24

MS, 음성·이미지 AI 모델 첫 공개...오픈AI 벗어난다

음성인식음성생성이미지생성멀티모달AI자립
메타 AI '뮤즈 스파크' 써보니…페북·인스타에 챗GPT 심은 느낌디지털투데이
2026. 4. 10. 오전 11:41

메타 AI '뮤즈 스파크' 써보니…페북·인스타에 챗GPT 심은 느낌

AI모델멀티모달이미지생성영상생성코딩지원챗봇소셜미디어음성생성
메타, 슈퍼인텔리전스랩 첫 AI 모델 '뮤즈 스파크' 공개네이트
2026. 4. 9. 오전 5:05

메타, 슈퍼인텔리전스랩 첫 AI 모델 '뮤즈 스파크' 공개

AI모델슈퍼인텔리전스메타멀티모달벤치마크음성인식이미지생성LLM
알리바바 'Qwen시리즈' 코딩·추론·멀티모달 전방위 고도화로 글로벌 AI 경쟁 가세헬로티
2026. 4. 6. 오전 10:04

알리바바 'Qwen시리즈' 코딩·추론·멀티모달 전방위 고도화로 글로벌 AI 경쟁 가세

대형언어모델코딩에이전트멀티모달음성인식이미지생성추론능력컨텍스트윈도우옴니모달
알리바바, 스스로 코딩하고 영상 읽는 차세대 AI 모델 2종 공개cadgraphics.co.kr
2026. 4. 6. 오전 9:57

알리바바, 스스로 코딩하고 영상 읽는 차세대 AI 모델 2종 공개

AI모델멀티모달음성인식영상처리코딩자동화에이전트컨텍스트음성생성
미소정보기술, AI 특허 7건 확보…IPO·글로벌 진출 속도데일리팜
2026. 4. 15. 오전 6:22

미소정보기술, AI 특허 7건 확보…IPO·글로벌 진출 속도

AI특허XR기술멀티모달음성인식시각인식메타버스데이터플랫폼IPO
[개발] 글자·사진·소리·영상 동시에 이해하고 만드는 차세대 통합 AI 파운데이션elec4
2026. 4. 13. 오전 9:11

[개발] 글자·사진·소리·영상 동시에 이해하고 만드는 차세대 통합 AI 파운데이션

멀티모달파운데이션생성AI디퓨전통합모델음성인식영상생성로봇
[글로벌] '수십조 인재 베팅 통했다?'...메타, 차세대 AI '뮤즈 스파크'로 반격 시동테크M
2026. 4. 11. 오후 1:54

[글로벌] '수십조 인재 베팅 통했다?'...메타, 차세대 AI '뮤즈 스파크'로 반격 시동

AI모델멀티모달추론능력이미지생성동영상벤치마크수익화오픈소스
iFLYTEK, GITEX ASIA 2026에서 ‘AI 안경’과 ‘AI 통역 마이크’ 선보이며 전방위적 AI 번역 솔루션 강조뉴스와이어
2026. 4. 10. 오전 9:21

iFLYTEK, GITEX ASIA 2026에서 ‘AI 안경’과 ‘AI 통역 마이크’ 선보이며 전방위적 AI 번역 솔루션 강조

AI안경AI통역음성인식실시간번역멀티모달음성기술번역생태계언어장벽
서울공대 도재영 교수팀, 차세대 통합 AI 파운데이션 모델 ‘Dynin-Omni’ 개발동아비즈니스리뷰 | DBR
2026. 4. 8. 오후 6:35

서울공대 도재영 교수팀, 차세대 통합 AI 파운데이션 모델 ‘Dynin-Omni’ 개발

파운데이션모델멀티모달생성AI디퓨전음성처리이미지생성영상이해정보추론
구광모 AI 뚝심…LG, 멀티모달 AI '엑사원 4.5' 공개v.daum.net
2026. 4. 9. 오전 10:12

구광모 AI 뚝심…LG, 멀티모달 AI '엑사원 4.5' 공개

멀티모달거대언어모델비전언어모델AI모델벤치마크음성인식물리지능