article detail
[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다
2026. 6. 4. 오전 9:10
AI 요약
국내 인공지능 스타트업들이 하드웨어 최적화부터 안전성 평가, 디지털 트윈까지 각자의 영역에서 기술 성과와 협력 소식을 잇달아 내놨습니다. 노타는 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 대규모언어모델(LLM) 추론 최적화 기술로 입력 처리와 답변 생성 단계에 적합한 연산 장치를 배치하는 분리형 추론 방식을 적용해 단일 GPU 대비 토큰당 에너지 소비 32% 절감, 생성 처리량 12% 증가, 단일 NPU 대비 첫 응답 지연시간 89% 단축 효과를 거뒀다고 4일 밝혔습니다. 에임인텔리전스는 10개국 5천500개 현지화 테스트 케이스로 37개 LLM의 법적·문화적 맥락 이해도를 측정하는 글로벌 벤치마크 XL-세이프티벤치를 공개했고, 엔닷라이트는 MetAI와 MOU를 체결해 트리닉스와 멧젠을 결합한 통합 파이프라인으로 피지컬 AI 전 과정을 자동화한다고 밝혔습니다.

![노타, GPU·NPU 동시 활용 AI 추론 기술 구현에 13%↑[특징주]](https://image.edaily.co.kr/images/Photo/files/NP/S/2026/06/PS26060400382.jpg)




