article detail
노타, 이기종 컴퓨팅 기반 거대언어모델 최적화…AI PC 효율 제고
2026. 6. 4. 오전 8:53
AI 요약
인공지능 경량화 및 최적화 기술 기업 노타는 인텔의 루나 레이크 기반 AI PC에서 LLM 실행을 입력 처리와 답변 생성 단계로 나눠 연산 특성에 맞게 GPU와 NPU에 분산 배치하는 분리형 추론 기술을 적용했다고 4일 밝혔습니다. 실제 평가에서 분리형 추론은 단일 GPU 대비 토큰당 에너지 소비를 약 32% 절감하고 생성 처리량을 약 12% 향상했으며, 단일 NPU 구동 대비 첫 응답 지연시간은 약 89% 단축했습니다.







