article detail
‘텍스트와 이미지를 동시에 이해하고 추론’...LG AI연구원, 멀티모달 AI ‘엑사원 4.5’ 오픈 웨이트 공개
2026. 4. 9. 오전 11:51
AI 요약
LG AI연구원은 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 엑사원(EXAONE) 4.5를 공개했으며 자체 개발한 비전 인코더와 대형언어모델을 하나의 구조로 통합한 비전-언어 모델로 K-엑사원의 모달리티 확장을 위한 준비 단계입니다. 엑사원 4.5는 계약서·기술 도면·재무제표 등 복합 문서를 정확히 읽고 추론하는 데 강점을 보이며 STEM 5개 지표 평균 77.3점으로 오픈AI GPT-5 mini(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 알리바바 큐웬3 235B(77.0점)를 앞섰고 13개 시각 능력 평가 지표 평균에서도 GPT-5 mini·클로드 소넷 4.5·큐웬3-VL을 상회했습니다. 이 모델은 330억 개 파라미터 규모로 K-엑사원보다 약 7분의 1 크기이지만 하이브리드 어텐션 구조와 멀티 토큰 예측 기반 고속 추론으로 텍스트 이해 및 추론에서 동등한 성능을 달성했으며 한국어·영어 외에 스페인어·독일어·일본어·베트남어를 공식 지원하고 허깅페이스에 연구·학술·교육 목적으로 공개했습니다.


