IT뉴스모아news terminal

article detail

GPT보다 두 배 정확하게 잡아냈다, AI 에이전트 실수를 미리 막는 '감시자' 등장

전자신문AI에이전트LLM모니터링성능평가실패감지오류예측조기경보학습모델

2026. 5. 15. 오전 11:39

GPT보다 두 배 정확하게 잡아냈다, AI 에이전트 실수를 미리 막는 '감시자' 등장

AI 요약

영국 리버풀대학교와 프랑스 그르노블알프대학교 연구진이 2026년 5월 발표한 논문 프리픽스가드(PrefixGuard)에 따르면, 작고 가벼운 학습 모니터가 거대 언어모델(LLM) 판사보다 AI 에이전트 실패 예측을 최대 두 배 가까이 더 정확하게 수행했습니다. 프리픽스가드의 최고 모니터는 WebArena·τ2-Bench·SkillsBench·TerminalBench에서 각각 0.900, 0.710, 0.533, 0.557의 AUPRC를 기록했고, 같은 환경에서 GPT-5.4-mini와 DeepSeek V4-Pro는 최고 0.407과 0.450에 그쳤으며, 핵심 기법으로 실행 기록을 일곱 항목으로 표준화하는 스텝뷰(StepView)와 주로 GRU 백엔드의 소규모 학습이 사용되었습니다. 다만 AUPRC가 높다고 해서 실제 경보 시스템으로서 효과적인 것은 아니어서, WebArena는 0.900 AUPRC에도 거짓 경보율을 10% 이하로 묶었을 때 실패 작업의 28.7%만 사전에 잡아냈고 경보도 작업 종료 직전에 울렸던 반면 τ2-Bench는 0.710 AUPRC로도 실패 작업의 97.9%를 조기에 잡아냈습니다.

GPT보다 두 배 정확하게 잡아냈다, AI 에이전트 실수를 미리 막는 ‘감시자’ 등장

2026. 5. 15. 오전 11:11

GPT보다 두 배 정확하게 잡아냈다, AI 에이전트 실수를 미리 막는 ‘감시자’ 등장

AI에이전트오류예측언어모델모니터링조기경보학습모델성능평가실패탐지

미스트랄, 기업용 AI 운영 인프라 '워크플로우' 공개..."에이전트 실패율 낮춰"

2026. 4. 29. 오후 5:48

미스트랄, 기업용 AI 운영 인프라 '워크플로우' 공개..."에이전트 실패율 낮춰"

AI에이전트LLM워크플로우운영인프라프로세스자동화API연동모니터링엔터프라이즈

"금융 AI에이전트 시대 선도할 것…AI 매출 5년 내 기존 CMS 사업 추월"

2026. 6. 7. 오전 10:00

"금융 AI에이전트 시대 선도할 것…AI 매출 5년 내 기존 CMS 사업 추월"

AI에이전트금융AILLM자연어처리데이터분석ERP뱅킹서비스AI전환

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

2026. 6. 6. 오전 7:29

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

AI에이전트자기개선LLM하드웨어AI연구원파인튜닝자동화에이전트학습

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

2026. 6. 6. 오전 7:29

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

AI자기개선LLMAI에이전트가상환경자동화AI연구빅테크

아이폰도 이제 AI이미지 생성 되나.. 9일 새로운 시리 출시

2026. 6. 6. 오후 2:33

아이폰도 이제 AI이미지 생성 되나.. 9일 새로운 시리 출시

AI이미지생성시리LLMAI에이전트제미나이애플인텔리전스WWDC아이폰

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

2026. 6. 6. 오전 7:27

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

AI자기개선LLM재귀적개선AI에이전트자동화AI연구창의성하드웨어

오픈AI·앤트로픽 이어 메타도 AI B2B 승부수

2026. 6. 6. 오전 7:12

오픈AI·앤트로픽 이어 메타도 AI B2B 승부수

AI에이전트B2B시장엔터프라이즈LLM메시징플랫폼수익화중소기업자동화

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

아시아경제

2026. 6. 6. 오전 7:27

AI가 AI를 낳는다…LLM 넘어 '재귀적 자기 개선'으로 [테크토크]

AI자기개선재귀적학습AI에이전트자동화연구LLM하드웨어알고리즘

와이즈넛, 멀티모달 AI 에이전트 공개… LLM 라인업 확대

디지털데일리

2026. 6. 4. 오후 4:32

와이즈넛, 멀티모달 AI 에이전트 공개… LLM 라인업 확대

멀티모달LLMAI에이전트비전인식RAG솔루션온프레미스대화모델환각제어

중앙대학교, 생성AI 선도인재양성 사업 3건 동시 선정 쾌거

2026. 6. 5. 오전 11:01

중앙대학교, 생성AI 선도인재양성 사업 3건 동시 선정 쾌거

생성AI인재양성산학협력멀티모달LLMAI에이전트경량모델임베딩

와이즈넛, 멀티모달 기능 강화 AI 에이전트 첫선… LLM 라인업 확장

2026. 6. 4. 오전 10:57

와이즈넛, 멀티모달 기능 강화 AI 에이전트 첫선… LLM 라인업 확장

멀티모달AI에이전트LLM이미지분석RAG솔루션도메인특화비정형데이터AI플랫폼