IT뉴스모아news terminal

article detail

AI 스타트업 클레비, GAIA 상위 2.5% 진입… 검증된 공신력 보여줘

v.daum.netAI스타트업LLM공신력검증모델개발벤치마크에이전트해외진출
2026. 4. 8. 오전 10:01
AI 스타트업 클레비, GAIA 상위 2.5% 진입… 검증된 공신력 보여줘

AI 요약

국내 AI 스타트업 클레비는 from scratch로 개발한 자체 모델과 에이전트로 메타 AI가 설계하고 허깅페이스가 운영하는 GAIA 벤치마크에서 전체 3,090개 등록 모델 기준 상위 2.5%에 진입했습니다. 클레비는 cip-5.5-agent(에이전틱 AI)와 cip-5.5-mm 등을 내부에서 독자 개발하고 외부 LLM API를 전혀 사용하지 않은 채 5개 에이전트를 출전시켜 전원 70점대(최고 79.07%, 최저 70.76%)를 기록했으며, 내부 재평가에서 웹상 정답 근거가 남아 있는 문항만 기준으로 정답률이 98% 이상으로 인간 평균 92%를 넘어섰습니다. 회사 측은 GAIA 리더보드 등재가 제3자 독립 평가에 따른 검증된 공신력을 부여해 투자 유치·해외 진출·B2B 영업 등에서 활용 가능한 객관적 근거가 된다고 설명했습니다.

원문보기
feed://articles/related관련 기사
아크릴, AWS 협력 발판 삼아 의료·AI 인프라 해외 시장 확대뉴스타운
2026. 6. 4. 오전 11:43

아크릴, AWS 협력 발판 삼아 의료·AI 인프라 해외 시장 확대

GPU최적화의료AILLMEMR플랫폼클라우드인프라해외진출벤치마크의료특화
친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시디지털 인사이트 DIGITAL iNSIGHT
2026. 5. 29. 오후 2:11

친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시

LLM생성형AI클로드할루시네이션에이전트코딩벤치마크
“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]v.daum.net
2026. 5. 27. 오전 7:01

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI성능측정벤치마크에이전트코딩능력추론능력실전평가성능괴리LLM
AI 스타트업 서치독, 10억원 규모 시드투자 유치아시아경제
2026. 4. 28. 오전 8:52

AI 스타트업 서치독, 10억원 규모 시드투자 유치

AI스타트업시드투자문서분석LLM제품개발해외진출자금조달건설IT
오픈AI, ‘일하는 AI’ GPT-5.5 전격 공개…“코딩·리서치 스스로 척척”뉴시스
2026. 4. 24. 오전 10:24

오픈AI, ‘일하는 AI’ GPT-5.5 전격 공개…“코딩·리서치 스스로 척척”

생성AI에이전트LLM코딩리서치벤치마크보안API
오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환AI타임스
2026. 4. 24. 오전 7:12

오픈AI, 에이전트 능력서 '미소스' 꺾은 GPT-5.5 출시...세계 1위 탈환

생성형AILLM에이전트벤치마크API멀티모달추론능력토큰가격
문샷AI, 오픈소스 LLM 키미-K2.6 출시…"GPT-5.4·클로드 오퍼스 4.6 능가"네이트
2026. 4. 21. 오후 2:58

문샷AI, 오픈소스 LLM 키미-K2.6 출시…"GPT-5.4·클로드 오퍼스 4.6 능가"

오픈소스LLM거대언어모델멀티모달에이전트벤치마크MoE어텐션메커니즘
“민감정보, LLM이 읽기 전에 막는다”…‘AI DLP’가 주목받는 이유디지털데일리
2026. 5. 29. 오후 1:04

“민감정보, LLM이 읽기 전에 막는다”…‘AI DLP’가 주목받는 이유

AI보안DLPLLM개인정보데이터유출프라이버시암호화에이전트
중앙대, ‘생성AI 선도인재양성 사업’ 3건 동시 선정…글로벌 AI 인재 요람 도약한국대학신문
2026. 6. 4. 오후 2:34

중앙대, ‘생성AI 선도인재양성 사업’ 3건 동시 선정…글로벌 AI 인재 요람 도약

생성AI인재양성LLM멀티모달에이전트고신뢰AI온프레미스할루시네이션
KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력v.daum.net
2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가언어모델AI안전
이글루코퍼레이션, KISA ‘2026년 AI 보안 유망기업 육성 지원사업’ 시제품 개발 과제 수주'데일리시큐
2026. 6. 4. 오후 1:15

이글루코퍼레이션, KISA ‘2026년 AI 보안 유망기업 육성 지원사업’ 시제품 개발 과제 수주'

AI보안SOCLLM에이전트SIEMSOAR시제품자율형
KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개v.daum.net
2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전