article detail
"코딩은 29배, 추론은 7배"…세레브라스, '키미' 서비스로 GPU 압도
2026. 5. 25. 오후 5:18

AI 요약
AI 칩 전문 세레브라스가 문샷 AI의 1조 매개변수 오픈웨이트 모델 키미 K2.6을 기업 고객 대상으로 서비스하기 시작했으며, 기업 고객 시험 운영에서 아티피셜 애널리시스 기준 초당 981개 출력 토큰을 기록해 GPU 기반 클라우드 서비스 중 가장 빠른 경쟁사보다 6.7배, 업계 평균 대비 23배 빠른 성능을 보였다고 밝혔습니다. 에이전트 코딩 작업에서는 세레브라스 시스템이 1만개 입력 토큰과 500개 출력 토큰의 복합 요청을 5.6초에 처리한 반면 키미 공식 엔드포인트는 같은 작업에 163.7초가 소요돼 응답 속도가 약 29배 빠르다고 소개했습니다. 회사는 이 같은 경쟁력이 WSE 3 웨이퍼스케일 엔진 기반의 단일 칩 구조와 대용량 SRAM 집적, 20대 규모 CS-3 클러스터에서의 4비트 가중치·16비트 연산, 칩 내부 네트워크 대역폭이 엔비디아 NVL72보다 200배 이상 높다는 점에 기인한다고 설명했으며 서비스는 포춘 500 중심 엔터프라이즈에 우선 제공되고 소프트웨어·금융·헬스케어 주요 기업들이 시험 운영 중이고 지난 14일 상장 직후 주가가 68% 급등했다가 이후 약 17% 조정되었다고 보도했습니다






