article detail
[현장] 카카오, 보고 듣고 말하는 멀티모달 AI '카나나-o' 공개
2026. 5. 7. 오후 4:28
AI 요약
7일 서울 코엑스 KAIST AI 기술설명회 2026 초청강연에서 노병석 카카오 유니파이드 파운데이션 모델 스튜디오 리더는 텍스트와 음성, 이미지를 동시에 이해·응답하는 통합 멀티모달 언어모델 '카나나-o'를 소개했습니다. 카카오는 2월 27일부터 3개월간 카나나-o API 클로즈드 베타 테스트를 진행했으며, 음성 응답을 스트리밍 방식으로 바꿔 대기 시간을 1.5초에서 0.5초로 단축하고 자체 토크나이저 'LMSPT'로 음성 생성 속도를 약 6배 향상시켰으며 '네이티브 레졸루션'으로 고해상도 이미지 처리를 개선했다고 밝혔습니다. 카카오는 카나나를 기반으로 에이전틱 AI 전략을 추진하며 정신아 대표가 예고한 '카나나 2.5' 공개와 함께 독도 팟캐스트 시연, '호돌이' 인식 개선 사례 등으로 한국 문화·정서 특화 학습을 강조했습니다.
![제미나이로 영어공부 좀 해보자구 [두런두런 AI ⑦]](https://flexible.img.hani.co.kr/flexible/normal/700/350/imgdb/original/2026/0508/20260508502292.webp)


![“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202605/08/834c4a79-13aa-415b-ba9e-c65609073c18.jpg)

![[컨콜] 카카오, `카나나 2.5`로 에이전틱 AI 승부수](https://www.ddaily.co.kr/photos/2026/05/07/2026050710004817326_l.jpg)
