article detail
구글, 노트북용 멀티모달 '젬마 4 12B' 출시..."인코더 빼고 경량화 성공"
2026. 6. 4. 오후 3:22

AI 요약
구글은 3일(현지시간) 텍스트·이미지·오디오·비디오를 단일 아키텍처에서 처리하면서 일반 소비자용 노트북에서도 구동되도록 설계된 최신 오픈웨이트 모델 젬마 4 12B를 출시했습니다. 이 모델은 약 119억5000만개의 매개변수를 가진 디코더 전용 트랜스포머로 이미지·음성 인코더를 제거한 인코더 없는 통합 아키텍처를 채택해 이미지 패치를 48×48 크기로 선형 투영하고 16kHz 원시 음성을 직접 LLM 임베딩 공간에 투영함으로써 추론 지연과 메모리 사용량을 줄였으나 LLM 연산 부담과 시각 정보 디테일 인식 저하라는 기술적 대가가 발생했습니다. 벤치마크에서 젬마 26B MoE에 근접하는 성능을 보이면서도 메모리 사용량은 절반 이하이고 25만6000 토큰의 컨텍스트 창을 지원하며 음성인식·화자 구분·비디오 이해·코드 생성 등 다양한 기능을 제공하고 아파치 2.0 라이선스로 가중치가 허깅페이스와 캐글에 공개되어 있습니다.





![48년 ‘x86’ 아성 흔든 ‘AI 노트북’, AMD 삼키나 [트럼프 스톡커]](https://wimg.sedaily.com/news/cms/2026/06/02/news-p.v1.20260601.d384305c68bc48ed91549148b6102cb2_R.jpg)


