article detail
달파, 오픈AI의 ‘MLE-벤치’서 글로벌 최고 수준 에이전트 성능 입증
2026. 5. 7. 오후 4:35

AI 요약
AI 에이전트 전문 달파(대표 김도균)는 오픈AI의 MLE-벤치에서 코브라 에이전트가 종합 점수 79.11%를 기록했다고 7일 밝혔습니다. 이 벤치는 캐글의 실제 비즈니스 과제 75개를 에이전트가 자율적으로 해결하는 능력을 측정하며, 달파의 성과는 구글 CAIR MARS+(62.67%), 바이두 FM-Agent(64.44%) 등을 크게 웃돌고 일부 과제에서는 인간 참가자 1위 성과를 넘어섰습니다. 달파는 이번 결과가 자체 프레임워크 코브라의 자율 탐색·자가 개선 역량과 월드 모델 방법론의 활용을 증명한다고 설명하며 연구 논문을 곧 공개하고 소비재 브랜드용 에이전틱 OS 고도화에 박차를 가하고 있다고 밝혔습니다.




![덜 시켜도 알아서 일한다...오픈AI 수퍼앱 엔진 GPT-5.5 출시 [팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202604/24/02e9f3fe-b25e-4bf2-89cd-672d1d51375a.jpg)



