article detail
생화학무기·악성코드 답변까지…오픈소스 AI 안전망 붕괴 경고
2026. 5. 26. 오전 10:57
AI 요약
오픈소스 AI 모델의 안전장치를 제거하는 소프트웨어가 온라인에서 확산되며 변형 AI 모델들이 유통되고 일부는 생물학 무기 제조나 악성코드 작성, 아동 성학대 묘사 등 위험한 요청에도 응답한 것으로 확인되었습니다. 파이낸셜타임스 보도에 따르면 앨리스의 실험에서는 깃허브 공개 도구 헤레틱으로 메타의 라마 3.3 안전장치를 10분 만에 제거했고, 헤레틱 개발자는 이 도구로 3500개 이상의 검열 해제 모델이 만들어졌고 관련 모델 다운로드 수가 1300만건에 달한다고 밝혔으며 젬마 4도 출시 90분 만에 안전장치가 제거됐다고 덧붙였습니다. 전문가들은 유해 데이터 제거만으로 모델이 자동으로 안전해지지 않는다고 지적했고, 오픈AI는 GPT-OSS에서 위험 정보 제거 데이터로 학습시키는 방식을 도입했으며 깃허브는 불법 공격 지원 콘텐츠를 금지하되 보안 연구 코드는 허용한다고 밝혔고 메타는 재앙적 위험이 있는 모델은 공개하지 않겠다고 전했습니다.




