IT뉴스모아news terminal

article detail

투게더AI, 2비트 KV 캐시 압축 ‘OSCAR’ 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다

AI 매터스GPU효율화KV캐시압축긴문맥처리서빙시스템양자화언어모델오픈소스추론최적화

2026. 5. 27. 오전 10:56

투게더AI, 2비트 KV 캐시 압축 ‘OSCAR’ 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다

AI 요약

투게더AI는 긴 문맥 대규모 언어모델 서빙을 위한 2비트 KV 캐시 압축 시스템 OSCAR를 오픈소스로 공개했다고 마크테크포스트 등이 5월 25일 전했습니다. OSCAR(Offline Spectral Covariance-Aware Rotation)는 양자화 전에 쿼리의 공분산을 추정해 고유값 분해로 얻은 고유벡터를 키 회전의 기준축으로 삼아 중요한 정보를 덜 손상시키면서 KV를 INT2로 압축하는 방식입니다. OSCAR는 추론 서빙 스택 SGLang의 INT2 KV 캐시 모드로 통합되어 페이지드 어텐션과 호환되며, 앞쪽 64개 토큰과 최근 256개 토큰은 BF16으로 유지하고 나머지 과거 토큰만 회전·클리핑해 INT2로 압축해 같은 GPU로 더 긴 문맥을 더 많은 사용자에게 서비스하고 추론 단가를 낮출 수 있고 관련 논문과 코드·평가 도구는 arXiv(2605.19660)와 함께 공개되었습니다.

비드래프트, GPU 재학습 없는 LLM 프레임워크 'Darwin Family' 기술 공개

2026. 5. 19. 오후 4:56

비드래프트, GPU 재학습 없는 LLM 프레임워크 'Darwin Family' 기술 공개

LLM모델병합추론최적화GPU효율화언어모델특허기술양자화프레임워크

비드래프트, GPU 재학습 없는 LLM 프레임워크 ‘Darwin Family’ 기술 공개

2026. 5. 19. 오후 4:53

비드래프트, GPU 재학습 없는 LLM 프레임워크 ‘Darwin Family’ 기술 공개

LLM모델병합추론최적화GPU효율화파인튜닝양자화프레임워크특허기술

BC카드, 레드햇 서밋서 에이전틱 AI 사례 제시…韓금융사 첫발표

2026. 5. 18. 오전 9:49

BC카드, 레드햇 서밋서 에이전틱 AI 사례 제시…韓금융사 첫발표

에이전틱AILLM소형언어모델금융AI오픈소스추론최적화GPU효율화한국금융

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

LLM벤치마크안전성다국어문화민감성오픈소스평가도구언어모델

AI가 눈을 뜨고, 머릿속에 세상을 그리기 시작했다 [정원훈의 AI 트렌드]

2026. 6. 5. 오전 6:00

AI가 눈을 뜨고, 머릿속에 세상을 그리기 시작했다 [정원훈의 AI 트렌드]

비전모델언어모델멀티모달온디바이스MoE구조오픈소스안전성

NVIDIA와 함께 AI 에이전트 구축하는 엔터프라이즈 소프트웨어 선도 기업들

NVIDIA Blog Korea

2026. 6. 4. 오전 11:04

NVIDIA와 함께 AI 에이전트 구축하는 엔터프라이즈 소프트웨어 선도 기업들

AI에이전트오픈소스엔터프라이즈자율시스템칩설계시뮬레이션추론최적화파트너십

업스테이지, 독파모 '중간 모델'로 국내 첫 AA 40점대 돌파

2026. 6. 1. 오전 8:59

업스테이지, 독파모 '중간 모델'로 국내 첫 AA 40점대 돌파

언어모델파운데이션중간모델성능평가AI벤치마크국내개발오픈소스모델경쟁

리퀴드 AI, 온디바이스용 모델 ‘LFM2.5-8B-A1B’ 공개…환각 줄고 추론 대폭 강화

2026. 5. 30. 오후 12:55

리퀴드 AI, 온디바이스용 모델 ‘LFM2.5-8B-A1B’ 공개…환각 줄고 추론 대폭 강화

온디바이스AI경량모델MoE환각억제추론최적화도구호출에이전트오픈소스

South Korean researchers develop virtual simulator for AI servers

2026. 5. 29. 오후 3:55

South Korean researchers develop virtual simulator for AI servers

AI서버시뮬레이터성능평가언어모델하드웨어메모리분산시스템오픈소스

비드래프트 LLM ‘다윈 패밀리’, GPU 학습 없이 세계 3위 기록

2026. 5. 22. 오후 1:36

비드래프트 LLM ‘다윈 패밀리’, GPU 학습 없이 세계 3위 기록

LLM모델병합추론성능GPU학습다윈패밀리특허출원양자화오픈소스

이미지도, 영상도, 편집도 한 모델로 ‘영상 올인원 AI’ [정원훈의 AI 트렌드]

2026. 5. 22. 오전 6:00

이미지도, 영상도, 편집도 한 모델로 ‘영상 올인원 AI’ [정원훈의 AI 트렌드]

멀티모달영상생성이미지편집오픈소스미니모델양자화TTSGPU

BC카드, 美서 '에이전틱 AI 플랫폼' 공개…"운영비·속도 혁신"

2026. 5. 18. 오후 4:57

BC카드, 美서 '에이전틱 AI 플랫폼' 공개…"운영비·속도 혁신"

AI플랫폼SLMLLM추론속도GPU효율화금융AI오픈소스운영비절감