article detail
노타, 이기종 컴퓨팅 기반 LLM 최적화 기술 구현
2026. 6. 4. 오전 9:12
AI 요약
노타(대표 채명수)는 4일 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 밝혔습니다. 회사는 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행되도록 하는 분리형 추론 방식을 적용했다고 설명했습니다. 평가 결과 분리형 추론은 단일 GPU 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였으며, 단일 NPU 대비 첫 응답 지연시간을 약 89% 단축했습니다.




