article detail
노타, 이기종 컴퓨팅 기반 거대언어모델 최적화…AI PC 효율 제고
2026. 6. 4. 오전 8:53

AI 요약
노타는 인텔의 루나 레이크 기반 AI PC에서 LLM 실행을 입력 처리와 답변 생성으로 분리해 입력 처리는 GPU, 답변 생성은 NPU에서 실행하는 분리형 추론(Disaggregated Inference) 방식을 적용했다고 4일 밝혔습니다. 실제 성능 평가에서 단일 GPU 방식 대비 토큰당 에너지 소비를 약 32% 절감하고 생성 처리량을 약 12% 향상했으며, 단일 NPU 대비 첫 응답 지연시간을 약 89% 단축했습니다.




![노타, GPU·NPU 동시 활용 AI 추론 기술 구현에 13%↑[특징주]](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/06/PS26060400382.jpg)