article detail
알리바바 'Qwen시리즈' 코딩·추론·멀티모달 전방위 고도화로 글로벌 AI 경쟁 가세

AI 요약
알리바바 그룹은 에이전틱 코딩과 멀티모달 추론 역량을 강화한 플래그십 모델 최신 버전 Qwen3.6-Plus와 텍스트·음성·이미지·영상 전반을 통합 처리하는 Qwen3.5-Omni를 공개했습니다. Qwen3.6-Plus는 인식·추론·행동을 연결하는 능력 루프 구조로 초기 코드 구상부터 테스트·반복 개선까지 일관 지원하며 프론트엔드 웹 개발과 저장소 단위 엔지니어링 작업을 목표 분해부터 최종 정제까지 자율 수행하고 기본 100만 토큰 컨텍스트 창을 지원하며 UI 스크린샷·손그림 와이어프레임·제품 프로토타입을 해석해 동작 가능한 프론트엔드 코드를 생성하고 Model Studio·Qwen Chat 및 OpenClaw·Claude Code·Cline 등 외부 코딩 도구와 호환됩니다. Qwen3.5-Omni는 텍스트·음성·이미지·영상·동기화된 음성-영상 콘텐츠를 단일 모델에서 처리하는 옴니모달 AI로 Plus·Flash·Light 세 가지 버전이 있고 모두 최대 256K 토큰 컨텍스트를 지원하며, 최상위 모델 Qwen3.5-Omni-Plus는 200개 이상의 벤치마크에서 최고 수준 성능을 기록했으며 알리바바 그룹에 따르면 음성 이해·추론·음성 인식·다국어 번역·대화 영역에서 Gemini 3.1 Pro보다 우수한 성능을 보였고 10시간 이상의 연속 오디오 처리, 음성 인식 113개 언어 및 방언·음성 생성 36개 언어 및 방언 지원과 Audio-Visual Vibe Coding을 통한 스케치와 음성 설명 기반의 앱·웹사이트·미니게임용 동작 가능한 UI 프로토타이핑을 지원합니다.




![[개발] 글자·사진·소리·영상 동시에 이해하고 만드는 차세대 통합 AI 파운데이션](https://elec4.co.kr/media/commonfile/202604/13/d3e665bd4817c0c6a5d801ff115cd26e.jpg)
