article detail
구글, '젬마 4 QAT' 공개…“1GB 메모리로 AI 구동” 온디바이스 AI 대중화 가속
2026. 6. 6. 오후 6:16
AI 요약
구글이 자사의 오픈 모델 '젬마 4' 제품군에 양자화 인식 학습(QAT)을 적용한 '젬마 4 QAT 모델'을 공개하고 메모리 사용량을 획기적으로 줄이면서도 기존 모델 수준의 성능을 유지할 수 있는 새로운 압축 기술을 적용했다고 5일(현지시간) 밝혔다. 구글은 업계 표준 Q4_0 포맷과 E2B·E4B용 모바일 전용 양자화 방식, 정적 활성화(Static Activations), 채널 단위 양자화와 일부 계층의 2비트 양자화, 임베딩·KV 캐시 최적화 등을 통해 젬마 4 E2B 모델의 메모리 사용량을 1GB 수준으로 낮추고 텍스트 전용 버전은 1GB 미만에서도 구동 가능하다고 설명했습니다. 모델 가중치는 허깅페이스를 통해 제공되며 GGUF 형식은 라마.cpp에서 사용 가능하고 vLLM용 압축 텐서와 Ollama, LM Studio, SGLang, MLX, Transformers.js 등 주요 개발 플랫폼과의 호환성을 제공해 소비자용 노트북과 스마트폰, 엣지 디바이스에서 로컬 AI 실행과 프라이버시 중심 서비스 구축을 가능하게 할 것으로 구글은 기대하고 있습니다.
![[데스크칼럼] LLM 기술 각축전…성능 경쟁서 가성비·효율 경쟁으로](https://cdn.itbiznews.com/news/photo/202606/215319_217265_721.jpg)
![두 손이 자유로운 세상…AI 안경이 스마트폰 삼킬까 [스마트폰 끝내러 온 AI 안경①]](https://economist.co.kr/data/ecn/image/2026/05/26/ecn20260526000103.800x.0.jpg)

