article detail
노타, 이기종 컴퓨팅 기반 LLM 최적화 성공…"AI PC 효율 극대화"
2026. 6. 4. 오전 8:43
AI 요약
노타는 인텔의 루나 레이크(Lunar Lake) 기반 AI PC에서 입력 처리는 GPU에, 답변 생성은 NPU에 할당하는 분리형 추론(Disaggregated Inference) 방식으로 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 4일 밝혔습니다. 평가 결과 단일 GPU 대비 토큰당 에너지 소비는 약 32% 줄고 생성 처리량은 약 12% 향상됐으며, 첫 응답 지연 시간은 단일 NPU 실행 방식과 비교해 약 89% 단축됐습니다. 노타는 이를 통해 모델 경량화·런타임 최적화·하드웨어 최적화를 결합한 풀스택 최적화 역량을 입증했으며 해당 성과가 컴퓨텍스(COMPUTEX) 2026 등 산업 전반의 이기종 컴퓨팅·분리형 추론 흐름과 맞닿아 있다고 밝혔습니다.







![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)