article detail
“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손
2026. 5. 12. 오후 12:47

AI 요약
AI 모델 최적화의 본질은 모델 용량과 자원 활용량을 줄이면서 정확도와 성능을 최대한 유지하는 것이며, 이를 위해 양자화·가지치기·지식 증류·모델 압축 등이 활용되고 그중 양자화가 가장 중요합니다. FP32로 제작된 70B 모델을 INT8로 양자화하면 모델 용량은 최대 4배까지 줄고 추론 속도는 약 1.5배 빨라집니다. 지난 7일 노타와 모빌린트는 전략적 파트너십을 체결해 모빌린트의 MLA100·MLA400 등 NPU에 노타의 '넷츠프레소'를 라이선스 방식으로 제공해 하드웨어와 소프트웨어를 통합한 최적화 솔루션을 제공하고, 비전 AI 솔루션 NVA의 해당 하드웨어 구동 및 공동 납품 검토와 함께 K-NPU 프로젝트 활성화에 기여하기로 했습니다.







