article detail
미토스 이어 GPT-5.5도... 20시간짜리 해킹, AI가 혼자 해냈다
2026. 5. 2. 오후 1:26

AI 요약
영국 정부 산하 AI안전연구소(AISI)가 2026년 4월 발표한 보고서는 엔트로픽의 클로드 미토스 프리뷰와 오픈AI의 GPT-5.5가 정보 수집에서 권한 탈취·내부 이동·데이터 유출에 이르는 32단계의 기업 네트워크 해킹 시나리오를 스스로 끝까지 완수했다고 밝혔습니다. 보고서는 GPT-5.5의 엑스퍼트급 성공률을 약 71%, 클로드 미토스를 약 68%로 평가하고 TLO 시나리오에서는 미토스가 10번 중 3번, GPT-5.5가 2번 성공했으며 두 모델은 산업 제어 시스템 공격 시뮬레이션에서는 실패했다고 전했습니다. 전문가들이 6시간 만에 GPT-5.5의 안전장치를 우회하는 '유니버설 탈옥'을 찾아냈고, 더 많은 계산 자원과 긴 추론 시간이 성공률을 높였으며 영국 정부와 국가사이버보안센터(NCSC)는 같은 AI를 방어에 활용하는 방안을 논의 중이라고 보고서는 결론지었습니다.




