article detail
디노티시아, AI 병목 'KV 캐시' 20배 압축하는 기술 공개
2026. 7. 2. 오전 9:40

AI 요약
디노티시아는 2일 KV 캐시를 최대 20배 압축하는 기술 STAR-KV 논문과 소스코드를 공개했습니다. 논문 실험 기준으로 저랭크 압축만으로 KV 캐시를 최대 75% 줄였고 혼합 정밀도 양자화 기법을 결합해 전체 KV 캐시를 최대 20배까지 압축했으며 맞춤형 GPU 커널로 어텐션 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상했습니다. STAR-KV는 디노티시아와 미국 UC 샌디에이고 VVIP 랩의 공동 연구 성과로 논문은 ICML 2026 스포트라이트 논문으로 채택되었고 디노티시아는 vLLM 등 오픈소스 LLM 추론 프레임워크에서 활용할 수 있도록 기술을 고도화할 계획입니다.