article detail
"그리는 것이 곧 이해하는 것"…구글, 생성 AI로 비전 AI 역할까지 하는 '비전 바나나' 공개
2026. 4. 26. 오후 12:49

AI 요약
구글 딥마인드 연구진은 24일(현지시간) 이미지 생성 능력은 유지하면서 의미론적 분할, 객체 분할, 단안 깊이 추정, 표면 법선 추정 등 다양한 시각 이해 작업을 수행하는 통합 모델 '비전 바나나(Vision Banana)'를 arXiv에 공개했습니다. 연구진은 이미지 생성 모델 '나노 바나나 프로'에 소량의 시각 과제 데이터를 더한 경량 지시 튜닝과 'V-토큰'을 적용해 모든 출력을 RGB 이미지로 통일함으로써 제로샷 환경에서 SAM 3와 뎁스 애니싱 등 최신 특화 모델들과 대등하거나 더 나은 성능을 기록하면서도 생성 성능 저하가 없음을 보여주었습니다. 연구진은 이를 근거로 이미지 생성 학습이 시각적 이해를 포함하는 사전학습 역할을 하며 생성 비전 사전학습이 파운데이션 모델 구축의 핵심이 될 수 있다고 강조했습니다.










