article detail
GPU 확보보다 활용…오케스트로, 추론 특화 플랫폼 '콘체르토 AI' 공개
2026. 5. 29. 오전 10:51
AI 요약
오케스트로는 생성형 AI 서비스 확산으로 증가한 추론 수요에 대응하기 위해 29일 AI 추론 운영 플랫폼 '콘체르토 AI'를 공개했습니다. 콘체르토 AI는 질문 분석과 답변 생성 분리, 분산 서빙, KV Cache 최적화 및 메모리 재사용, 실시간 대기열과 지능형 라우팅 등을 통해 GPU·NPU 자원을 작업 특성에 맞게 배분해 초기 응답 시간과 토큰 처리 속도를 개선하고 고부하 환경에서 기존 단일 처리 대비 토큰 출력 속도를 2.2배 향상시켰습니다. 또한 LLMOps 전 과정을 단일 플랫폼에서 자동화하고 쿠버네티스 기반 배포와 통합 모니터링을 지원하며 엔비디아 GPU뿐 아니라 리벨리온·퓨리오사AI 등 국산 NPU를 포함한 이기종 가속기를 지원해 프라이빗 AI와 소버린 AI 환경에서 하드웨어 의존도를 낮추는 것을 목표로 합니다.







![[AI픽] LGU+, AWS 손잡고 AI 운영 자동화 플랫폼 구축](https://img6.yna.co.kr/etc/inner/KR/2026/04/10/AKR20260410028000017_01_i_P4.jpg)