article detail
“듣고, 추론하고, 번역하고, 행동한다”…오픈AI, 차세대 실시간 음성 AI 모델 3종 공개
2026. 5. 8. 오전 9:00
AI 요약
오픈AI는 7일(현지시간) API용 신규 음성 모델인 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했습니다. 핵심 모델인 GPT-Realtime-2는 GPT-5급 추론 능력을 갖춘 첫 실시간 음성 모델로, 대화 흐름 유지, 도구 호출, 실시간 음성 추론 시 프리앰블 삽입, 병렬 툴 사용, 장애 복구, 컨텍스트 윈도 확대(기존 32K→128K), 전문 용어 이해 강화, 감정 표현·음성 톤 제어 및 최소·낮음·중간·높음·최고의 다섯 단계 추론 강도(기본값 ‘low’) 조절 등을 지원한다고 밝혔습니다. GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 언어로 실시간 번역하고, GPT-Realtime-Whisper는 스트리밍 음성 전사를 제공하며, GPT-Realtime-2는 Big Bench Audio에서 기존 GPT-Realtime-1.5 대비 15.2% 향상, Audio MultiChallenge에서 13.8% 향상된 성능을 보였고 도이치텔레콤·질로우·프라이스라인 등 기업들이 관련 음성 AI를 개발 중이라고 소개했습니다.


![“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202605/08/834c4a79-13aa-415b-ba9e-c65609073c18.jpg)




