article detail
알리바바, 호퍼 GPU에서 모델 속도 3배 향상하는 ‘플래시QLA’ 공개
2026. 5. 4. 오후 4:34

AI 요약
대형언어모델 성능 경쟁이 GPU 커널 영역으로 확장되며 알리바바가 29일(현지시간) 엔비디아 호퍼 GPU에서 최대 3배의 속도 향상을 구현할 수 있는 고성능 선형 어텐션 커널 라이브러리 플래시QLA를 공개하고 코드를 깃허브에서 오픈소스로 제공했습니다. 플래시QLA는 GDN(Gated Delta Network) 기반 선형 어텐션에 맞춰 최적화돼 입력 길이 n에 따른 연산을 n²에서 n 수준으로 줄이며, 트리톤 기반 커널과 비교해 순방향에서 최대 2~3배, 역방향에서 2배 빠른 성능을 구현했습니다. 지수 감쇠 특성을 이용한 컨텍스트 병렬화, 텐서 코어·CUDA 코어·SFU 부담을 줄이는 계산 재구성, 타일랭 기반 커널 설계 등의 기술로 연산 효율을 높여 긴 문서 처리 비용과 AI 서비스 운영 비용 절감에 기여하고, 전문가들은 이번 발표를 미국의 AI 칩 수출 제재에 대한 소프트웨어 돌파구로 해석하고 있습니다.





