article detail
노타, GPU·NPU 분산 추론으로 AI PC LLM 효율 개선
2026. 6. 4. 오후 1:57
AI 요약
노타는 6월 4일 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 함께 활용해 대규모언어모델(LLM) 추론 효율을 높이는 이기종 컴퓨팅 기반 추론 최적화 기술을 구현했다고 밝혔다. 입력 처리 연산을 GPU에서, 답변 생성 연산을 NPU에서 수행하는 분리형 추론 방식을 적용한 결과 단일 GPU 대비 토큰당 에너지 소비는 약 32% 감소하고 생성 처리량은 약 12% 향상됐으며 단일 NPU 대비 첫 응답 지연시간은 약 89% 단축됐다고 밝혔다. 이번 사례는 AI PC 성능 경쟁이 개별 칩 사양을 넘어 CPU·GPU·NPU를 결합한 시스템 설계와 런타임·하드웨어 최적화 역량으로 확대되고 있음을 보여준다고 회사는 설명했습니다.







![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)