article detail
노타, AI PC용 이기종 컴퓨팅 LLM 최적화 구현
2026. 6. 4. 오전 9:19
AI 요약
노타는 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 선보였으며, 입력 처리와 답변 생성 단계를 분리해 각 연산을 GPU와 NPU에 각각 배치하는 분리형 추론 방식을 적용했습니다. 이 방식으로 단일 GPU 실행 대비 토큰당 에너지 소비를 32% 줄이고 생성 처리량을 12% 높였으며, 단일 NPU 실행 대비 첫 응답 지연은 89% 감소했습니다. 이번 성능 평가는 인텔 루나 레이크 기반 AI PC, MoE LLM, context window size 512 조건에서 진행됐고 노타는 모델 경량화·런타임 최적화·하드웨어 최적화를 결합해 온디바이스 AI 실행 효율을 높이겠다고 밝혔습니다.








![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)