article detail
노타, 이기종 컴퓨팅 기반 LLM 최적화 구현...'실행효율 제고 노력'
2026. 6. 4. 오전 8:52
AI 요약
노타는 인텔 루나 레이크(Intel Lunar Lake) 기반 AI PC에서 분리형 추론(Disaggregated Inference)을 적용해 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눈 뒤 각 단계에 적합한 연산 장치를 배치하는 이기종 컴퓨팅 기반 추론 최적화 기술을 구현했습니다. 이를 통해 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행되도록 구성해 단일 GPU 실행 방식 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였으며 단일 NPU 실행 방식 대비 첫 응답 지연시간을 약 89% 단축했습니다.







![[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다](https://img5.yna.co.kr/etc/inner/KR/2026/06/04/AKR20260604065000017_01_i_P4.jpg)