article detail

화웨이, AI 추론 가속 솔루션 상용망 검증

디일렉

2026. 7. 2. 오전 8:05

AI 요약

화웨이가 6월 24~26일 MWC 상하이 2026에서 차이나모바일 후베이의 상용망에 AI Inference Acceleration Solution을 검증했으며 해당 솔루션은 OceanStor A800, Ascend A3 SuperPoD, Unified Cache Manager(UCM)를 기반으로 합니다. vLLM-Ascend로 미니맥스 M2.5와 GLM-5.1에 대해 8K~190K 토큰 장문 입력을 시뮬레이션한 결과 미니맥스는 TTFT가 26~62% 개선되고 TPS가 시퀀스 길이별로 최대 78% 향상됐으며, GLM-5.1은 TTFT가 51~93% 개선되고 TPS가 56~372% 향상되어 128K 환경에서 372% 증가했다고 발표했습니다. 화웨이는 UCM이 페타바이트급 KV 캐시를 계층적으로 관리해 컨텍스트 창을 크게 넓히고 토큰 비용 절감과 효율적·친환경적인 AI 컴퓨팅 인프라 구축에 기여한다고 설명했습니다.

원문보기