IT뉴스모아news terminal

article detail

사람은 100점, 최첨단 AI는 60점, 시야각 회전시키면 못 푸는 비전 LLM 머릿속 들여다보니

AI 매터스공간추론듀얼코딩로봇지각벤치마크비전LLM사고모드시야각회전어텐션분석

2026. 5. 7. 오전 10:58

사람은 100점, 최첨단 AI는 60점, 시야각 회전시키면 못 푸는 비전 LLM 머릿속 들여다보니

AI 요약

베이징이공대 연구진이 2026년 4월 발표한 논문에서 사람은 텍스트 시점 회전 이해(VRU) 과제에서 100% 정확도를 보였지만 SOTA 모델인 큐원3‑VL‑32B는 약 70%에 그쳤고, 연구팀은 자체 제작한 1만 9591개 시나리오의 VRUBench에서 LLM 8종·VLM 7종 총 15종을 평가해 라마2‑7B 18.9%, 큐원2.5‑7B 41.89%, 큐원2.5‑32B 72.84% 등 다양한 성능을 확인했으며 사고 모드(think mode)를 켠 제미나이3 플래시는 86.32%, 큐원3‑VL‑32B는 사고 모드에서 96.55%를 기록했습니다. 같은 크기의 모델 비교에서 큐원2.5‑VL‑7B는 48.67%로 큐원2.5‑7B(41.89%)보다 높아 이미지 학습이 텍스트 공간 추론을 향상시킨다는 듀얼 코딩 이론과 일치했고, 레이어별 프로빙 결과 모델은 개별 회전 방향·각도 정보를 99% 이상 정확히 표현하지만 회전 누적을 통해 절대 방향을 유지하는 단계에서는 후반 레이어(21‑28층)에서 정보가 흐려져 최종 결합 단계에서 오류를 냈습니다. 패스 패칭으로 핵심 어텐션 헤드를 확인한 결과 22.1번은 제안 헤드, 26.14번은 답변 결정 헤드로 작동했고 27.14번은 정렬 학습의 부작용으로 'unknown' 토큰에 강한 주의를 기울여 'unknown' 응답 비율을 65.78%에서 40.73%로 낮추는 영향을 미쳤으며, 연구진은 이러한 결함이 로봇·가상현실·자율주행 등 공간 해석이 필요한 분야에서 문제로 이어질 수 있다고 지적했습니다.

앤트로픽, 충격 전망…"2028년 AI가 AI 만들고 인간 개입 사라질 수도"

2026. 5. 8. 오후 1:26

앤트로픽, 충격 전망…"2028년 AI가 AI 만들고 인간 개입 사라질 수도"

AI자동화자기개선에이전트벤치마크연구개발기술전망

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

2026. 5. 8. 오전 8:59

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

AI안전성거버넌스딥페이크모델학습벤치마크학술대회정책규제융합연구

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

2026. 5. 8. 오전 8:30

중앙대 김호기 교수 연구팀, 세계 최고 AI 학회 ‘ICML 2026’ 논문 3편 채택

AI안전성AI거버넌스딥페이크모델학습벤치마크학술논문국제학회

[Tech & Now] 달파, 오픈AI 'MLE-벤치'서 종합 점수 79.11% 기록

2026. 5. 7. 오후 4:14

[Tech & Now] 달파, 오픈AI 'MLE-벤치'서 종합 점수 79.11% 기록

AI에이전트벤치마크월드모델자율시스템머신러닝기술성과물류최적화마케팅자동화

달파, 오픈AI의 ‘MLE-벤치’서 글로벌 최고 수준 에이전트 성능 입증

2026. 5. 7. 오후 4:35

달파, 오픈AI의 ‘MLE-벤치’서 글로벌 최고 수준 에이전트 성능 입증

AI에이전트벤치마크자율탐색자가개선월드모델에이전틱OS소비재브랜드

NVIDIA·ServiceNow, 기업용 자율 AI 에이전트 파트너십 확장

NVIDIA Blog Korea

2026. 5. 7. 오후 12:24

NVIDIA·ServiceNow, 기업용 자율 AI 에이전트 파트너십 확장

AI에이전트자율시스템엔터프라이즈파트너십가속컴퓨팅거버넌스오픈모델벤치마크

리얼월드, 보고·느끼고·기억하는 로봇 AI 모델 RLDX-1 공개

플래텀(Platum)

2026. 5. 7. 오후 12:10

리얼월드, 보고·느끼고·기억하는 로봇 AI 모델 RLDX-1 공개

로봇AI파운데이션멀티모달촉각센싱트랜스포머실시간제어벤치마크오픈소스

시높시스 “시뮬레이션으로 데이터센터 피지컬 AI 혁신”

2026. 5. 7. 오전 9:30

시높시스 “시뮬레이션으로 데이터센터 피지컬 AI 혁신”

피지컬AI시뮬레이션데이터센터산업로봇디지털트윈센서로봇학습벤치마크

"너는 OO 전문가야"...AI 페르소나 프롬프팅, 효과 있을까?

2026. 5. 3. 오전 10:00

"너는 OO 전문가야"...AI 페르소나 프롬프팅, 효과 있을까?

프롬프팅페르소나AI성능코딩수학벤치마크얼라인먼트자원배분

웨어큐브-비드래프트 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

2026. 4. 30. 오전 11:04

웨어큐브-비드래프트 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

LLM한국어AI리더보드벤치마크AI모델디스플레이협업개발

AI에 도쿄대 시험지 줬더니... 합격자 최고점 넘었다

2026. 4. 29. 오후 5:47

AI에 도쿄대 시험지 줬더니... 합격자 최고점 넘었다

AI성능평가대학입시챗GPT제미나이클로드자연언어처리머신러닝벤치마크

웨어큐브, 비드래프트와 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

2026. 4. 29. 오후 3:32

웨어큐브, 비드래프트와 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

LLM한국어AI리더보드벤치마크AI전환제조업언어모델협업