IT뉴스모아news terminal

article detail

투게더AI, 2비트 KV 캐시 압축 ‘OSCAR’ 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다

AI 매터스GPU효율화KV캐시압축긴문맥처리서빙시스템양자화언어모델오픈소스추론최적화
2026. 5. 27. 오전 10:56
투게더AI, 2비트 KV 캐시 압축 ‘OSCAR’ 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다

AI 요약

투게더AI는 긴 문맥 대규모 언어모델 서빙을 위한 2비트 KV 캐시 압축 시스템 OSCAR를 오픈소스로 공개했다고 마크테크포스트 등이 5월 25일 전했습니다. OSCAR(Offline Spectral Covariance-Aware Rotation)는 양자화 전에 쿼리의 공분산을 추정해 고유값 분해로 얻은 고유벡터를 키 회전의 기준축으로 삼아 중요한 정보를 덜 손상시키면서 KV를 INT2로 압축하는 방식입니다. OSCAR는 추론 서빙 스택 SGLang의 INT2 KV 캐시 모드로 통합되어 페이지드 어텐션과 호환되며, 앞쪽 64개 토큰과 최근 256개 토큰은 BF16으로 유지하고 나머지 과거 토큰만 회전·클리핑해 INT2로 압축해 같은 GPU로 더 긴 문맥을 더 많은 사용자에게 서비스하고 추론 단가를 낮출 수 있고 관련 논문과 코드·평가 도구는 arXiv(2605.19660)와 함께 공개되었습니다.

원문보기
feed://articles/related관련 기사
비드래프트, GPU 재학습 없는 LLM 프레임워크 'Darwin Family' 기술 공개네이트
2026. 5. 19. 오후 4:56

비드래프트, GPU 재학습 없는 LLM 프레임워크 'Darwin Family' 기술 공개

LLM모델병합추론최적화GPU효율화언어모델특허기술양자화프레임워크
비드래프트, GPU 재학습 없는 LLM 프레임워크 ‘Darwin Family’ 기술 공개서울신문
2026. 5. 19. 오후 4:53

비드래프트, GPU 재학습 없는 LLM 프레임워크 ‘Darwin Family’ 기술 공개

LLM모델병합추론최적화GPU효율화파인튜닝양자화프레임워크특허기술
BC카드, 레드햇 서밋서 에이전틱 AI 사례 제시…韓금융사 첫발표연합뉴스
2026. 5. 18. 오전 9:49

BC카드, 레드햇 서밋서 에이전틱 AI 사례 제시…韓금융사 첫발표

에이전틱AILLM소형언어모델금융AI오픈소스추론최적화GPU효율화한국금융
비드래프트 LLM ‘다윈 패밀리’, GPU 학습 없이 세계 3위 기록데이터넷
2026. 5. 22. 오후 1:36

비드래프트 LLM ‘다윈 패밀리’, GPU 학습 없이 세계 3위 기록

LLM모델병합추론성능GPU학습다윈패밀리특허출원양자화오픈소스
이미지도, 영상도, 편집도 한 모델로 ‘영상 올인원 AI’ [정원훈의 AI 트렌드]IT조선
2026. 5. 22. 오전 6:00

이미지도, 영상도, 편집도 한 모델로 ‘영상 올인원 AI’ [정원훈의 AI 트렌드]

멀티모달영상생성이미지편집오픈소스미니모델양자화TTSGPU
BC카드, 美서 '에이전틱 AI 플랫폼' 공개…"운영비·속도 혁신"뉴시스
2026. 5. 18. 오후 4:57

BC카드, 美서 '에이전틱 AI 플랫폼' 공개…"운영비·속도 혁신"

AI플랫폼SLMLLM추론속도GPU효율화금융AI오픈소스운영비절감
비씨카드, 레드햇써밋서 국내 금융사 최초 'AI운영 플랫폼' 사례 공개중소기업신문
2026. 5. 18. 오후 4:24

비씨카드, 레드햇써밋서 국내 금융사 최초 'AI운영 플랫폼' 사례 공개

AI운영플랫폼SLM생성형AIOCR추론최적화GPU효율화금융기술혁신금융서비스
“이젠 금융도 한류”…BC카드, 미국서 ‘K-금융 AI 혁신’ 전세계에 알려v.daum.net
2026. 5. 18. 오후 3:36

“이젠 금융도 한류”…BC카드, 미국서 ‘K-금융 AI 혁신’ 전세계에 알려

AI혁신금융기술언어모델오픈소스결제시스템운영효율GPU최적화글로벌진출
멀티 에이전트 시스템으로 여는 업무용 AI의 다음 단계 - 제로랩스코리아 박진성 대표핸드메이커
2026. 5. 16. 오전 10:20

멀티 에이전트 시스템으로 여는 업무용 AI의 다음 단계 - 제로랩스코리아 박진성 대표

멀티에이전트업무자동화챗봇보안취약점AI솔루션양자화B2B추론최적화
레드햇, ‘레드햇 AI 3.4’ 업데이트…에이전틱 AI 운영 지원 강화헬로티
2026. 5. 13. 오후 4:56

레드햇, ‘레드햇 AI 3.4’ 업데이트…에이전틱 AI 운영 지원 강화

오픈소스에이전트AIAI플랫폼MaaS쿠버네티스GPUMLflow추론최적화
엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개AI타임스
2026. 5. 11. 오후 5:43

엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개

AI모델LLM경량화양자화모델압축추론최적화혼합전문가지식증류
피씨엔, 소멸 위기 '제주어' AI 번역 모델 개발…오픈소스로 전면 공개전자신문
2026. 5. 8. 오후 2:19

피씨엔, 소멸 위기 '제주어' AI 번역 모델 개발…오픈소스로 전면 공개

언어모델제주어번역오픈소스LLM방언보존AI허브온디바이스