article detail

네이버 "AI 검색, 이제 ‘눈’으로 찾고 실행한다"

디지털데일리

2026. 7. 5. 오전 8:00

AI 요약

윤상두 네이버 퓨처 AI 센터 리더는 7월2일 네이버 D2SF 강남에서 열린 테크 딥톡에서 네이버가 텍스트 기반 대화형 검색을 넘어 이미지와 영상까지 이해하고 화면 속 특정 대상을 가리키며 검색과 질문을 동시에 처리하는 '멀티모달 실행형 에이전트'로 AI 검색을 확장하겠다고 발표했습니다. 네이버는 2017년 스마트렌즈 출시를 시작으로 2022년 복합 검색, 지난해 스마트렌즈와 AI 브리핑 연결로 이미지의 내용을 이해하고 요약하는 단계로 발전시켰으며, 이후 이미지와 영상의 맥락을 파악해 검색·플레이스·쇼핑·예약 등 서비스와 행동까지 연결하는 멀티모달 에이전트로 진화시키겠다고 설명했습니다. 이를 위해 네이버는 이미지·텍스트를 같은 의미 공간에 매핑하는 멀티모달 임베딩과 멀티턴 학습 방식인 MuCo 등을 개발하고 3500만장 규모의 멀티모달 데이터셋을 구축해 주요 벤치마크에서 세계 최고 수준의 성능을 확보했다고 밝혔습니다.

원문보기