IT뉴스모아news terminal

article detail

모레, 텐스토렌트 시스템의 LLM 추론 성능 입증…"GPU 중심 인프라 대체"

AI타임스GPU대체HBM절감KV캐시LLM추론MoE모델분산서빙이종칩통합텐스토렌트

2026. 5. 4. 오후 12:56

모레, 텐스토렌트 시스템의 LLM 추론 성능 입증…"GPU 중심 인프라 대체"

AI 요약

모레는 텐스토렌트 갤럭시 웜홀 시스템에 모아이 추론 프레임워크를 적용해 GPT-OSS, 큐원, GLM, 딥시크 등 최신 MoE 모델 테스트 결과 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다고 4일 밝혔습니다. 모아이는 엔비디아, AMD, 텐스토렌트 등 이종 GPU와 NPU를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션으로, GPU와 텐스토렌트 웜홀 칩을 결합한 이종 분산 서빙 구조에서 웜홀 칩을 입력 처리 전용 가속기로 활용해 HBM 사용을 줄이고 전체 인프라 비용을 절감했다고 설명했습니다. 해당 성과는 1일(현지시간) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사 TT-Deploy에서 처음 공개됐으며 조강원 모레 대표는 이후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획이라고 말했습니다.

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

2026. 5. 4. 오전 9:58

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoE모델분산서빙성능테스트추론가속비용절감

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

2026. 5. 4. 오전 9:58

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoE모델분산서빙성능최적화추론가속비용절감

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

2026. 5. 4. 오후 4:12

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론갤럭시MoAI텐스토렌트이종가속기분산서빙HBMKV캐시

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

2026. 5. 4. 오전 9:57

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoE모델분산서빙성능최적화추론가속비용절감

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능·안정성 확보

2026. 5. 4. 오전 10:05

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능·안정성 확보

LLM추론텐스토렌트MoE모델분산서빙추론성능가속기HBM칩설계

"GPU 독점 흔드나"…모레, 캐나다 텐스토렌트와 LLM 추론 'DGX급 성능' 입증

2026. 5. 4. 오후 12:08

"GPU 독점 흔드나"…모레, 캐나다 텐스토렌트와 LLM 추론 'DGX급 성능' 입증

GPU독점LLM추론AI가속기멀티벤더분산서빙추론프레임워크비용최적화이종칩통합

Shaking up the GPU dominance… Successfully proving 'DGX-class' Tensorrent-based LLM inference performance the day after tomorrow

벤처스퀘어

2026. 5. 4. 오후 4:26

Shaking up the GPU dominance… Successfully proving 'DGX-class' Tensorrent-based LLM inference performance the day after tomorrow

LLM추론GPU대안MoE모델이종칩통합비용효율가속기데이터센터

“GPU 독점 흔드나”…모레, 캐나다 텐스토렌트와 LLM 추론 ‘DGX급 성능’ 입증

2026. 5. 4. 오후 12:06

“GPU 독점 흔드나”…모레, 캐나다 텐스토렌트와 LLM 추론 ‘DGX급 성능’ 입증

GPU독점LLM추론AI인프라이종분산MoE모델벤더독립성능최적화비용절감

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

2026. 5. 4. 오전 9:56

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론텐스토렌트갤럭시MoAI이종분산GPUNPU성능최적화

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

2026. 5. 4. 오전 9:57

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

LLM추론갤럭시텐스토렌트MoAI이종분산GPUNPU인프라

‘공포’ 타이틀 달고 돌아온 ‘터보퀀트’ [AI 딥다이브]

2026. 4. 6. 오후 9:03

‘공포’ 타이틀 달고 돌아온 ‘터보퀀트’ [AI 딥다이브]

양자화KV캐시LLM추론데이터압축HBMD램AI수요

AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현

2026. 6. 4. 오전 9:33

AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현

AIPC시스템최적화이기종컴퓨팅LLM추론GPUNPU에너지효율토큰생성