article detail
사람은 100점, 최첨단 AI는 60점, 시야각 회전시키면 못 푸는 비전 LLM 머릿속 들여다보니

AI 요약
베이징이공대 연구진이 2026년 4월 발표한 논문에서 사람은 텍스트 시점 회전 이해(VRU) 과제에서 100% 정확도를 보였지만 SOTA 모델인 큐원3‑VL‑32B는 약 70%에 그쳤고, 연구팀은 자체 제작한 1만 9591개 시나리오의 VRUBench에서 LLM 8종·VLM 7종 총 15종을 평가해 라마2‑7B 18.9%, 큐원2.5‑7B 41.89%, 큐원2.5‑32B 72.84% 등 다양한 성능을 확인했으며 사고 모드(think mode)를 켠 제미나이3 플래시는 86.32%, 큐원3‑VL‑32B는 사고 모드에서 96.55%를 기록했습니다. 같은 크기의 모델 비교에서 큐원2.5‑VL‑7B는 48.67%로 큐원2.5‑7B(41.89%)보다 높아 이미지 학습이 텍스트 공간 추론을 향상시킨다는 듀얼 코딩 이론과 일치했고, 레이어별 프로빙 결과 모델은 개별 회전 방향·각도 정보를 99% 이상 정확히 표현하지만 회전 누적을 통해 절대 방향을 유지하는 단계에서는 후반 레이어(21‑28층)에서 정보가 흐려져 최종 결합 단계에서 오류를 냈습니다. 패스 패칭으로 핵심 어텐션 헤드를 확인한 결과 22.1번은 제안 헤드, 26.14번은 답변 결정 헤드로 작동했고 27.14번은 정렬 학습의 부작용으로 'unknown' 토큰에 강한 주의를 기울여 'unknown' 응답 비율을 65.78%에서 40.73%로 낮추는 영향을 미쳤으며, 연구진은 이러한 결함이 로봇·가상현실·자율주행 등 공간 해석이 필요한 분야에서 문제로 이어질 수 있다고 지적했습니다.





