article detail
노타, 'AI PC' GPU·NPU 동시 활용 최적화 기술 구현
2026. 6. 4. 오전 10:22

AI 요약
노타는 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현하고 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행하는 분리형 추론 방식을 적용했습니다. 평가 결과 단일 GPU 실행 방식 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였으며, 단일 NPU 실행 방식 대비 첫 응답 지연시간을 약 89% 단축했습니다. 노타는 AI 모델 작업 특성 분석에 따라 각 연산을 적합한 장치에 배치하는 점을 강점으로 꼽고 모델 경량화·런타임 최적화·하드웨어 최적화 기술을 결합해 온디바이스 AI 실행 효율을 높이겠다고 밝혔습니다.




![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)


