article detail
노타, 이기종 컴퓨팅 기반 거대언어모델 최적화…AI PC 효율 제고
2026. 6. 4. 오전 8:52

AI 요약
노타는 AI PC 환경에서 GPU와 NPU를 동시에 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술인 분리형 추론을 구현했다고 4일 밝혔습니다. 인텔 루나 레이크 기반 AI PC에서 입력 처리 연산을 GPU에, 답변 생성 연산을 NPU에 분산해 단일 GPU 대비 토큰당 에너지 소비를 약 32% 절감하고 생성 처리량을 약 12% 향상했으며 단일 NPU 대비 첫 응답 지연시간을 약 89% 단축했습니다. 노타는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 온디바이스 AI 실행 효율을 높여 나가겠다고 밝혔습니다.






