article detail
노타, GPU·NPU 동시 활용 AI 추론 구현…"AI PC 전력효율 개선"
2026. 6. 4. 오전 8:46

AI 요약
노타(486990)는 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 대규모언어모델(LLM) 추론 최적화 기술을 구현했다고 4일 밝혔다. 인텔 루나 레이크 기반 AI PC에서 입력 처리 연산은 GPU가, 답변 생성은 NPU가 담당하도록 분리형 추론(Disaggregated Inference)을 적용해 단일 GPU 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 향상시켰으며 단일 NPU 대비 첫 응답 지연시간을 약 89% 단축했다. 노타는 이 기술의 핵심이 연산을 모델 특성에 맞게 최적 배치하는 데 있다고 설명하며 온디바이스 AI 환경에서 차별화된 경쟁력이 될 것으로 기대한다고 밝혔다.



![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)


