article detail
Shaking up the GPU dominance… Successfully proving 'DGX-class' Tensorrent-based LLM inference performance the day after tomorrow
2026. 5. 4. 오후 4:26

AI 요약
AI 인프라 기업 Morera는 Tensorrent 기반 시스템에서 LLM 추론 성능을 시연하며 GPU 중심 아키텍처의 대안 가능성과 성능·비용 효율을 동시에 확보했다고 발표했습니다. 자사 MoAI inference framework를 Tensorrent의 Galaxy Wormhole 시스템에 적용해 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기반 테스트에서 NVIDIA DGX A100을 초과하는 성능을 기록해 기존 GPU 기반 인프라와 경쟁 가능한 수준으로 평가받았습니다. Morera는 GPU와 Tensorrent 칩을 결합한 heterogeneous distributed serving 아키텍처에서 Tensorrent를 prefill 전용 가속기로 활용해 HBM 사용을 줄이고 비용을 낮췄으며 TT-Deploy(샌프란시스코) 현장 시연으로 데이터센터 적용 가능성을 확인하고 NVIDIA, AMD, Tensorrent를 단일 클러스터에서 통합 운영할 수 있는 MoAI 프레임워크로 향후 이종 GPU·NPU 최적화를 추진하겠다고 CEO Jo Kang-won이 밝혔습니다.





