article detail
AI PC 경쟁, 칩 성능 넘어 ‘시스템 최적화’로…노타, GPU·NPU 분리형 추론 구현
2026. 6. 4. 오전 9:33

AI 요약
노타는 4일 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현하고 입력 처리 연산은 GPU, 답변 생성 연산은 NPU에서 수행하는 분리형 추론 방식을 적용했다고 밝혔습니다. 평가 결과 분리형 추론은 단일 GPU 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 개선했으며 단일 NPU 대비 첫 응답 지연을 약 89% 단축했으며 평가는 인텔 루나 레이크 기반 AI PC와 MoE LLM, 컨텍스트 윈도 크기 512 조건에서 진행되었습니다.






![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)