article detail
오픈AI, 실시간 음성 작업용 오디오 모델 3종 API에 도입
2026. 5. 8. 오후 2:57

AI 요약
오픈AI는 7일(현지시간) 실시간 대화 중 추론과 번역·전사·작업 수행이 가능한 음성 모델 GPT-리얼타임 3종(GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼)을 개발자용 플랫폼에 API 형태로 공개했습니다. 핵심 모델 GPT-리얼타임-2는 GPT-5급 추론 능력을 갖추고 도구 호출과 중간 안내 음성, 사용자 중간 발화·수정 대응, 전문 어휘 이해 및 감정·톤 조절을 지원하며 컨텍스트 창을 기존 3만2000 토큰에서 12만8000 토큰으로 확대해 장시간 대화와 복잡한 워크플로우를 지원합니다. 트랜슬레이트는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역·음성 출력·자막을 제공하고 위스퍼는 초저지연 스트리밍 전사를 제공하며, 가격은 GPT-리얼타임-2가 오디오 입력 토큰 100만개당 32달러·출력 토큰 100만개당 64달러, 트랜슬레이트는 분당 0.034달러, 위스퍼는 분당 0.017달러이고 API는 리얼타임 API를 통해 제공되며 유해 콘텐츠 차단·개발자 안전 규칙·AI 고지·EU 데이터 거주성 등 다층 안전장치를 적용했습니다.



![“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202605/08/834c4a79-13aa-415b-ba9e-c65609073c18.jpg)

