article detail

디노티시아, KV 캐시 압축기술로 ICML 2026 논문 채택

더에이아이

2026. 7. 2. 오전 9:46

AI 요약

디노티시아는 LLM 추론의 핵심 병목인 KV 캐시를 최대 20배까지 압축하는 기술 STAR-KV를 개발해 논문과 소스코드를 1일 공개했으며, 해당 논문은 ICML 2026에 스포트라이트 논문으로 채택됐습니다. STAR-KV는 저랭크 압축으로 KV 캐시를 최대 75% 절감하고 혼합 정밀도 양자화를 결합하면 최대 20배 압축을 달성했으며, 논문에 따르면 LLaMA-3.1-8B 모델이 배치 크기 4로 128K 토큰을 처리할 때 KV 캐시가 전체 GPU 메모리의 약 81%를 차지한다고 보고했습니다. 맞춤형 GPU 커널을 통해 어텐션 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상했으며 디노티시아는 향후 vLLM 등 오픈소스 LLM 추론 프레임워크에 통합할 계획입니다.

원문보기