article detail
GPU 확보보다 효율…오케스트로 '콘체르토 AI' 출시
2026. 5. 29. 오후 4:30

AI 요약
생성형 인공지능 서비스의 확산으로 기업들의 AI 인프라 운영 패러다임이 'GPU 확보'에서 '추론 효율화'로 이동하고 있으며 상시 가동되는 AI 서비스 증가로 병목 해결의 중요성이 커지고 있습니다. 오케스트로는 5월29일 AI 추론 운영 플랫폼 콘체르토 AI를 출시했다고 밝히며, 이 플랫폼은 대규모 추론 요청을 분산 처리하고 GPU와 NPU 자원을 작업 특성에 맞춰 유연하게 배분하며 질문 분석(prefill)과 답변 생성(decode)을 서로 다른 GPU에 분리 배치해 병목 전파를 차단하고 응답 속도를 안정적으로 유지하도록 설계됐습니다. 자체 온프레미스 벤치마크에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 방식보다 토큰 출력 속도가 2.2배 향상됐고, 오케스트로는 이를 통해 프라이빗 AI 환경에서 가용성 높은 서비스를 지원하고 가속기 최적화 서빙 시장에서 기술적 주도권을 강화할 전망이라고 밝혔습니다.





![[美증시 특징주] AI클라우드업체 네비우스 14% 폭등...에이전AI 인수가 촉매](https://image.mediapen.com/news/202605/news_1097035_1777924903_m.jpeg)
