IT뉴스모아news terminal

article detail

“듣고, 추론하고, 번역하고, 행동한다”…오픈AI, 차세대 실시간 음성 AI 모델 3종 공개

인공지능신문API멀티모달실시간처리음성AI음성모델음성번역음성인식추론능력
2026. 5. 8. 오전 9:00
“듣고, 추론하고, 번역하고, 행동한다”…오픈AI, 차세대 실시간 음성 AI 모델 3종 공개

AI 요약

오픈AI는 7일(현지시간) API용 신규 음성 모델인 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했습니다. 핵심 모델인 GPT-Realtime-2는 GPT-5급 추론 능력을 갖춘 첫 실시간 음성 모델로, 대화 흐름 유지, 도구 호출, 실시간 음성 추론 시 프리앰블 삽입, 병렬 툴 사용, 장애 복구, 컨텍스트 윈도 확대(기존 32K→128K), 전문 용어 이해 강화, 감정 표현·음성 톤 제어 및 최소·낮음·중간·높음·최고의 다섯 단계 추론 강도(기본값 ‘low’) 조절 등을 지원한다고 밝혔습니다. GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 언어로 실시간 번역하고, GPT-Realtime-Whisper는 스트리밍 음성 전사를 제공하며, GPT-Realtime-2는 Big Bench Audio에서 기존 GPT-Realtime-1.5 대비 15.2% 향상, Audio MultiChallenge에서 13.8% 향상된 성능을 보였고 도이치텔레콤·질로우·프라이스라인 등 기업들이 관련 음성 AI를 개발 중이라고 소개했습니다.

원문보기
feed://articles/related관련 기사
오픈AI, API에 실시간 음성 번역·전사 기능 추가… “대화하면서 일하는 AI”와우테일
2026. 5. 8. 오후 9:35

오픈AI, API에 실시간 음성 번역·전사 기능 추가… “대화하면서 일하는 AI”

API음성AI실시간번역음성전사추론능력음성인식다국어지원경쟁심화
오픈AI, 대화 알아듣는 AI 고도화…새 음성 모델 3종 출시MTN 머니투데이방송
2026. 5. 8. 오후 2:47

오픈AI, 대화 알아듣는 AI 고도화…새 음성 모델 3종 출시

음성AI실시간번역음성인식추론능력API자동응답음성인터페이스멀티모달AI
“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]중앙일보
2026. 5. 8. 오후 2:25

“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]

음성AI스크린리스실시간대화음성인식자연어처리API음성통역추론능력
오픈AI, 실시간 음성 AI 모델 공개...새 AI 기기 출시 '포석'YTN
2026. 5. 8. 오전 7:26

오픈AI, 실시간 음성 AI 모델 공개...새 AI 기기 출시 '포석'

음성AI실시간처리추론능력음성모델번역기능음성기기스마트안경정신건강
오픈AI, 실시간 음성 AI모델 공개…“자연스러운 대화 행태 반영”전자신문
2026. 5. 8. 오전 7:30

오픈AI, 실시간 음성 AI모델 공개…“자연스러운 대화 행태 반영”

음성AI실시간처리추론능력자연언어처리AI기기음성인식번역모델받아쓰기
오픈AI, 고쳐 말해도 바로 이해하는 AI 공개한국경제
2026. 5. 8. 오후 5:39

오픈AI, 고쳐 말해도 바로 이해하는 AI 공개

음성AI추론능력실시간번역음성인식텍스트생성광고서비스챗봇
오픈AI, 실시간 음성 작업용 오디오 모델 3종 API에 도입AI타임스
2026. 5. 8. 오후 2:57

오픈AI, 실시간 음성 작업용 오디오 모델 3종 API에 도입

음성AI실시간API음성번역음성전사추론능력개발자플랫폼멀티모달AI안전장치
오픈AI, 실시간 음성 AI 경쟁 본격화...새 오디오 모델 3종 공개레디앙
2026. 5. 8. 오전 11:04

오픈AI, 실시간 음성 AI 경쟁 본격화...새 오디오 모델 3종 공개

음성AI실시간처리오디오모델음성인식음성인터페이스AI에이전트음성기술멀티모달AI
오픈AI, 실시간 음성 AI모델 공개…새 AI기기 출시 포석인듯v.daum.net
2026. 5. 8. 오전 4:08

오픈AI, 실시간 음성 AI모델 공개…새 AI기기 출시 포석인듯

음성AI실시간번역음성인식추론능력스마트기기정신건강챗봇음성조작
[현장] 카카오, 보고 듣고 말하는 멀티모달 AI '카나나-o' 공개비즈한국
2026. 5. 7. 오후 4:28

[현장] 카카오, 보고 듣고 말하는 멀티모달 AI '카나나-o' 공개

멀티모달언어모델음성인식이미지처리API토크나이저에이전트AI스트리밍
오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환AI타임스
2026. 4. 24. 오전 7:12

오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환

생성형AILLM에이전트벤치마크API멀티모달추론능력토큰가격
딥엘, 실시간 음성 간 번역 ‘보이스 투 보이스’ 공개…글로벌 비즈니스언어 장벽 해소 지원인공지능신문
2026. 4. 16. 오전 10:30

딥엘, 실시간 음성 간 번역 ‘보이스 투 보이스’ 공개…글로벌 비즈니스언어 장벽 해소 지원

음성번역실시간번역AI번역음성인식다국어지원API언어모델