article detail
모레, 텐스토렌트 시스템의 LLM 추론 성능 입증…"GPU 중심 인프라 대체"
2026. 5. 4. 오후 12:56

AI 요약
모레는 텐스토렌트 갤럭시 웜홀 시스템에 모아이 추론 프레임워크를 적용해 GPT-OSS, 큐원, GLM, 딥시크 등 최신 MoE 모델 테스트 결과 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다고 4일 밝혔습니다. 모아이는 엔비디아, AMD, 텐스토렌트 등 이종 GPU와 NPU를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션으로, GPU와 텐스토렌트 웜홀 칩을 결합한 이종 분산 서빙 구조에서 웜홀 칩을 입력 처리 전용 가속기로 활용해 HBM 사용을 줄이고 전체 인프라 비용을 절감했다고 설명했습니다. 해당 성과는 1일(현지시간) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사 TT-Deploy에서 처음 공개됐으며 조강원 모레 대표는 이후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획이라고 말했습니다.



