IT뉴스모아news terminal

article detail

오픈AI, 실시간 음성 작업용 오디오 모델 3종 API에 도입

AI타임스개발자플랫폼멀티모달AI실시간API안전장치음성AI음성번역음성전사추론능력
2026. 5. 8. 오후 2:57
오픈AI, 실시간 음성 작업용 오디오 모델 3종 API에 도입

AI 요약

오픈AI는 7일(현지시간) 실시간 대화 중 추론과 번역·전사·작업 수행이 가능한 음성 모델 GPT-리얼타임 3종(GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼)을 개발자용 플랫폼에 API 형태로 공개했습니다. 핵심 모델 GPT-리얼타임-2는 GPT-5급 추론 능력을 갖추고 도구 호출과 중간 안내 음성, 사용자 중간 발화·수정 대응, 전문 어휘 이해 및 감정·톤 조절을 지원하며 컨텍스트 창을 기존 3만2000 토큰에서 12만8000 토큰으로 확대해 장시간 대화와 복잡한 워크플로우를 지원합니다. 트랜슬레이트는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역·음성 출력·자막을 제공하고 위스퍼는 초저지연 스트리밍 전사를 제공하며, 가격은 GPT-리얼타임-2가 오디오 입력 토큰 100만개당 32달러·출력 토큰 100만개당 64달러, 트랜슬레이트는 분당 0.034달러, 위스퍼는 분당 0.017달러이고 API는 리얼타임 API를 통해 제공되며 유해 콘텐츠 차단·개발자 안전 규칙·AI 고지·EU 데이터 거주성 등 다층 안전장치를 적용했습니다.

원문보기
feed://articles/related관련 기사
오픈AI, API에 실시간 음성 번역·전사 기능 추가… “대화하면서 일하는 AI”와우테일
2026. 5. 8. 오후 9:35

오픈AI, API에 실시간 음성 번역·전사 기능 추가… “대화하면서 일하는 AI”

API음성AI실시간번역음성전사추론능력음성인식다국어지원경쟁심화
오픈AI, 대화 알아듣는 AI 고도화…새 음성 모델 3종 출시MTN 머니투데이방송
2026. 5. 8. 오후 2:47

오픈AI, 대화 알아듣는 AI 고도화…새 음성 모델 3종 출시

음성AI실시간번역음성인식추론능력API자동응답음성인터페이스멀티모달AI
“듣고, 추론하고, 번역하고, 행동한다”…오픈AI, 차세대 실시간 음성 AI 모델 3종 공개인공지능신문
2026. 5. 8. 오전 9:00

“듣고, 추론하고, 번역하고, 행동한다”…오픈AI, 차세대 실시간 음성 AI 모델 3종 공개

음성AI실시간처리음성모델음성번역음성인식추론능력API멀티모달
오픈AI, 고쳐 말해도 바로 이해하는 AI 공개한국경제
2026. 5. 8. 오후 5:39

오픈AI, 고쳐 말해도 바로 이해하는 AI 공개

음성AI추론능력실시간번역음성인식텍스트생성광고서비스챗봇
“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]중앙일보
2026. 5. 8. 오후 2:25

“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]

음성AI스크린리스실시간대화음성인식자연어처리API음성통역추론능력
오픈AI, 실시간 음성 AI 경쟁 본격화...새 오디오 모델 3종 공개레디앙
2026. 5. 8. 오전 11:04

오픈AI, 실시간 음성 AI 경쟁 본격화...새 오디오 모델 3종 공개

음성AI실시간처리오디오모델음성인식음성인터페이스AI에이전트음성기술멀티모달AI
오픈AI, 실시간 음성 AI 모델 공개...새 AI 기기 출시 '포석'YTN
2026. 5. 8. 오전 7:26

오픈AI, 실시간 음성 AI 모델 공개...새 AI 기기 출시 '포석'

음성AI실시간처리추론능력음성모델번역기능음성기기스마트안경정신건강
오픈AI, 실시간 음성 AI모델 공개…“자연스러운 대화 행태 반영”전자신문
2026. 5. 8. 오전 7:30

오픈AI, 실시간 음성 AI모델 공개…“자연스러운 대화 행태 반영”

음성AI실시간처리추론능력자연언어처리AI기기음성인식번역모델받아쓰기
오픈AI, 실시간 음성 AI모델 공개…새 AI기기 출시 포석인듯v.daum.net
2026. 5. 8. 오전 4:08

오픈AI, 실시간 음성 AI모델 공개…새 AI기기 출시 포석인듯

음성AI실시간번역음성인식추론능력스마트기기정신건강챗봇음성조작
LG ‘엑사원 4.5’ 공개…문서·이미지 함께 읽는 AI미주중앙일보
2026. 4. 9. 오후 5:09

LG ‘엑사원 4.5’ 공개…문서·이미지 함께 읽는 AI

멀티모달AI비전언어모델LG문서분석추론능력오픈소스한국어지원STEM
‘텍스트와 이미지를 동시에 이해하고 추론’...LG AI연구원, 멀티모달 AI ‘엑사원 4.5’ 오픈 웨이트 공개인공지능신문
2026. 4. 9. 오전 11:51

‘텍스트와 이미지를 동시에 이해하고 추론’...LG AI연구원, 멀티모달 AI ‘엑사원 4.5’ 오픈 웨이트 공개

멀티모달AI비전언어모델대형언어모델오픈웨이트문서이해시각인식추론능력한국어지원
텍스트·이미지 동시에 이해·추론 LG, 멀티모달 AI ‘엑사원 4.5’ 공개중소기업신문
2026. 4. 9. 오전 10:16

텍스트·이미지 동시에 이해·추론 LG, 멀티모달 AI ‘엑사원 4.5’ 공개

멀티모달AI비전언어모델거대언어모델문서이해추론능력벤치마크고속추론다국어지원