article detail
"텍스트·이미지 동시 추론"…LG, 멀티모달 AI '엑사원 4.5' 공개
2026. 4. 9. 오전 10:00

AI 요약
LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 엑사원 4.5를 공개했으며 비전 인코더와 거대언어모델을 하나의 구조로 통합한 비전-언어 모델(VLM)입니다. 엑사원 4.5는 계약서·기술 도면·재무제표 등 복합 문서 이해에 강점이 있고 STEM 5개 지표 평균 77.3점으로 오픈AI GPT5-mini(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 알리바바 큐웬3 235B(77.0점)를 앞섰으며 라이브코드벤치 v6에서 81.4점을 기록해 구글 젬마4(80.0점)를 넘었고 차트QA에서는 62.2점을 기록했습니다. 파라미터 규모는 330억개(33B)로 K-엑사원보다 약 7분의 1 크기이나 자체 개발한 하이브리드 어텐션과 멀티 토큰 예측 기반 고속 추론 기술로 텍스트 이해·추론에서 동등한 수준을 달성했고 연구·학술·교육 목적으로 허깅페이스에 공개했으며 향후 음성·영상·물리 환경 등 모달리티 확장을 추진할 계획입니다.
