article detail
달파, 오픈AI 'MLE-벤치'서 글로벌 최고 수준 에이전트 성능 입증
2026. 5. 7. 오후 12:32

AI 요약
AI 에이전트 전문기업 달파는 오픈AI의 AI 에이전트 성능 평가 지표 MLE-벤치를 활용해 자체 기술력을 검증한 결과 자사의 코브라 에이전트가 종합 점수 79.11%를 기록해 구글의 CAIR MARS+(62.67%)와 바이두의 FM-Agent(64.44%) 등을 크게 웃돌았으며 일부 과제에서는 인간 참가자 1위의 성과를 넘었다고 7일 밝혔습니다. 달파는 이 성과가 월드 모델 방법론을 활용한 자율 탐색 및 자가 개선 역량을 객관적으로 증명한 결과라며 관련 연구 논문을 조만간 발표할 예정이라고 밝혔습니다. 달파는 이 기술력을 바탕으로 소비재(CPG) 브랜드용 에이전틱 OS 고도화에 나서고 있으며 에이전틱 OS는 내부의 파편화된 데이터를 통합해 신상품 기획부터 물류 최적화, 마케팅 실행까지 AI 에이전트가 전 과정을 자율 수행하는 시스템입니다.








