article detail
투게더AI, 2비트 KV 캐시 압축 ‘OSCAR’ 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다
2026. 5. 27. 오전 10:56

AI 요약
투게더AI는 긴 문맥 대규모 언어모델 서빙을 위한 2비트 KV 캐시 압축 시스템 OSCAR를 오픈소스로 공개했다고 마크테크포스트 등이 5월 25일 전했습니다. OSCAR(Offline Spectral Covariance-Aware Rotation)는 양자화 전에 쿼리의 공분산을 추정해 고유값 분해로 얻은 고유벡터를 키 회전의 기준축으로 삼아 중요한 정보를 덜 손상시키면서 KV를 INT2로 압축하는 방식입니다. OSCAR는 추론 서빙 스택 SGLang의 INT2 KV 캐시 모드로 통합되어 페이지드 어텐션과 호환되며, 앞쪽 64개 토큰과 최근 256개 토큰은 BF16으로 유지하고 나머지 과거 토큰만 회전·클리핑해 INT2로 압축해 같은 GPU로 더 긴 문맥을 더 많은 사용자에게 서비스하고 추론 단가를 낮출 수 있고 관련 논문과 코드·평가 도구는 arXiv(2605.19660)와 함께 공개되었습니다.






