IT뉴스모아news terminal

article detail

Shaking up the GPU dominance… Successfully proving 'DGX-class' Tensorrent-based LLM inference performance the day after tomorrow

벤처스퀘어GPU대안LLM추론MoE모델가속기데이터센터비용효율이종칩통합
2026. 5. 4. 오후 4:26
Shaking up the GPU dominance… Successfully proving 'DGX-class' Tensorrent-based LLM inference performance the day after tomorrow

AI 요약

AI 인프라 기업 Morera는 Tensorrent 기반 시스템에서 LLM 추론 성능을 시연하며 GPU 중심 아키텍처의 대안 가능성과 성능·비용 효율을 동시에 확보했다고 발표했습니다. 자사 MoAI inference framework를 Tensorrent의 Galaxy Wormhole 시스템에 적용해 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기반 테스트에서 NVIDIA DGX A100을 초과하는 성능을 기록해 기존 GPU 기반 인프라와 경쟁 가능한 수준으로 평가받았습니다. Morera는 GPU와 Tensorrent 칩을 결합한 heterogeneous distributed serving 아키텍처에서 Tensorrent를 prefill 전용 가속기로 활용해 HBM 사용을 줄이고 비용을 낮췄으며 TT-Deploy(샌프란시스코) 현장 시연으로 데이터센터 적용 가능성을 확인하고 NVIDIA, AMD, Tensorrent를 단일 클러스터에서 통합 운영할 수 있는 MoAI 프레임워크로 향후 이종 GPU·NPU 최적화를 추진하겠다고 CEO Jo Kang-won이 밝혔습니다.

원문보기
feed://articles/related관련 기사
모레, 텐스토렌트 시스템의 LLM 추론 성능 입증…"GPU 중심 인프라 대체"AI타임스
2026. 5. 4. 오후 12:56

모레, 텐스토렌트 시스템의 LLM 추론 성능 입증…"GPU 중심 인프라 대체"

LLM추론GPU대체텐스토렌트MoE모델이종칩통합분산서빙HBM절감KV캐시
모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능·안정성 확보데이터넷
2026. 5. 4. 오전 10:05

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능·안정성 확보

LLM추론텐스토렌트MoE모델분산서빙추론성능가속기HBM칩설계
김주영 하이퍼엑셀 대표, ‘2026년 정보통신 유공 포장’ 수상데이터넷
2026. 4. 22. 오후 1:42

김주영 하이퍼엑셀 대표, ‘2026년 정보통신 유공 포장’ 수상

AI반도체LLM추론반도체설계전력효율데이터센터ASIC메모리최적화비용효율
오케스트로, 국산 AI 반도체 클라우드 R&D 사업 112.5억 규모 수주플래텀(Platum)
2026. 5. 8. 오전 8:45

오케스트로, 국산 AI 반도체 클라우드 R&D 사업 112.5억 규모 수주

AI반도체클라우드국산기술SW스택가속기데이터센터AI인프라모델허브
AI칩 후발 AMD도 ‘깜짝 실적’…반도체 기업 다함께 질주한겨레
2026. 5. 6. 오후 6:34

AI칩 후발 AMD도 ‘깜짝 실적’…반도체 기업 다함께 질주

AI칩데이터센터반도체실적CPU가속기추론에이전트
모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증v.daum.net
2026. 5. 4. 오전 9:58

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoE모델분산서빙성능테스트추론가속비용절감
"GPU 독점 흔드나"…모레, 캐나다 텐스토렌트와 LLM 추론 'DGX급 성능' 입증네이트
2026. 5. 4. 오후 12:08

"GPU 독점 흔드나"…모레, 캐나다 텐스토렌트와 LLM 추론 'DGX급 성능' 입증

GPU독점LLM추론AI가속기멀티벤더분산서빙추론프레임워크비용최적화이종칩통합
모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증v.daum.net
2026. 5. 4. 오전 9:58

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoE모델분산서빙성능최적화추론가속비용절감
“GPU 독점 흔드나”…모레, 캐나다 텐스토렌트와 LLM 추론 ‘DGX급 성능’ 입증이데일리
2026. 5. 4. 오후 12:06

“GPU 독점 흔드나”…모레, 캐나다 텐스토렌트와 LLM 추론 ‘DGX급 성능’ 입증

GPU독점LLM추론AI인프라이종분산MoE모델벤더독립성능최적화비용절감
모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증네이트
2026. 5. 4. 오전 9:57

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoE모델분산서빙성능최적화추론가속비용절감
큐알티, 하이퍼엑셀과 AI 반도체 신뢰성 협력디일렉
2026. 4. 30. 오후 5:39

큐알티, 하이퍼엑셀과 AI 반도체 신뢰성 협력

AI반도체신뢰성평가품질관리반도체스타트업LLM추론가속기협력체계메모리평가
하이퍼엑셀 김주영 대표, '2026년 정보통신 날' 산업포장 수상…LLM 반도체 기술 혁신 인정전자신문
2026. 4. 23. 오전 8:19

하이퍼엑셀 김주영 대표, '2026년 정보통신 날' 산업포장 수상…LLM 반도체 기술 혁신 인정

AI반도체LLM추론반도체설계데이터센터전력효율ASIC메모리최적화인재양성