IT뉴스모아news terminal

article detail

AI 안전장치 10분 만에 무력화…메타·구글 오픈모델 ‘비상’

글로벌이코노믹AI안전검열해제규제회피깃허브모델변형악용방지안전장치오픈소스

2026. 5. 26. 오전 7:41

AI 안전장치 10분 만에 무력화…메타·구글 오픈모델 ‘비상’

AI 요약

메타플랫폼스와 구글의 오픈소스 AI 모델에서 안전장치를 제거한 변형 모델이 인터넷상에서 빠르게 확산하고 있으며 일부 모델은 생화학무기 제조, 악성코드 개발, 아동 성착취 관련 질문에도 응답한 것으로 파이낸셜타임스가 AI 안전성 단체 앨리스와 공동 실험해 보도했습니다. 깃허브에 공개된 헤레틱 소프트웨어로 메타의 라마 3.3 안전장치를 10분도 안 돼 제거할 수 있었고 개발자 필리프 에마누엘 바이트만은 공개 이후 3500개 이상의 검열 해제 모델이 생성되고 다운로드 수는 1300만회를 넘었다고 FT가 전했습니다. 전문가들은 오픈소스 모델은 다운로드 후 자유롭게 수정돼 규제와 가드레일을 무력화할 수 있다고 우려했고 구글과 깃허브는 각각 어블리테이션 문제와 소스코드 정책을 언급했습니다.

생화학무기·악성코드 답변까지…오픈소스 AI 안전망 붕괴 경고

2026. 5. 26. 오전 10:57

생화학무기·악성코드 답변까지…오픈소스 AI 안전망 붕괴 경고

AI안전오픈소스안전장치모델검열악성코드생화학무기깃허브메타

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증"

2026. 6. 4. 오전 10:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증"

대규모언어모델벤치마크안전성평가문화적민감성다국어AI안전평가지표오픈소스

"발등에 불, AI ‘취약점 탐지·공격’에서 인간 능력 넘어"...앤트로픽, '프로젝트 글래스윙' 150개 기관으로 확대

인공지능신문

2026. 6. 3. 오전 9:29

"발등에 불, AI ‘취약점 탐지·공격’에서 인간 능력 넘어"...앤트로픽, '프로젝트 글래스윙' 150개 기관으로 확대

AI보안취약점탐지사이버보안인프라보안자동패치오픈소스AI모델악용방지

[기술농담] AI 위험의 창조자들, 정보의 문을 걸어 잠그다

2026. 5. 27. 오전 6:00

[기술농담] AI 위험의 창조자들, 정보의 문을 걸어 잠그다

AI안전정보공개비밀주의모델공개AI위험투명성접근통제오픈소스

아무도 감히 손대지 못하는 인공지능 연구에 매진하는 9인 팀.

2026. 5. 21. 오전 2:14

아무도 감히 손대지 못하는 인공지능 연구에 매진하는 9인 팀.

AI안전대규모언어모델윤리사회영향악용방지개인정보정신건강

LLM 검열 제거 도구 '헤레틱' 등장

2026. 5. 19. 오전 11:59

LLM 검열 제거 도구 '헤레틱' 등장

LLM검열제거오픈소스안전장치프롬프트벡터제거트랜스포머윤리논란

앤트로픽 “‘미토스 쇼크’ 막는다”…日 포함 AI 보안동맹 확대 검토

헤럴드경제

2026. 5. 16. 오후 12:16

앤트로픽 “‘미토스 쇼크’ 막는다”…日 포함 AI 보안동맹 확대 검토

AI모델사이버보안악용방지국제협력접근제한취약점관리신뢰파트너오픈소스

앤트로픽 “‘미토스 쇼크’ 막는다”…日 포함 AI 보안동맹 확대 검토

2026. 5. 16. 오후 12:17

앤트로픽 “‘미토스 쇼크’ 막는다”…日 포함 AI 보안동맹 확대 검토

AI보안미토스프로젝트글래스윙고성능AI악용방지국제협력접근제한오픈소스

"AI 경쟁 벌이다 파국 맞을라"…美中 안전장치 마련 나선다

2026. 5. 8. 오후 2:03

"AI 경쟁 벌이다 파국 맞을라"…美中 안전장치 마련 나선다

AI미중관계안전장치자율군사보안위협오픈소스정상회담위기관리

AI가 만든 '신냉전'…트럼프·시진핑, 패권전쟁 속 공존 시험대

2026. 5. 8. 오전 6:54

AI가 만든 '신냉전'…트럼프·시진핑, 패권전쟁 속 공존 시험대

인공지능반도체양자컴퓨터자율무기사이버공격오픈소스기술패권AI안전

앤트로픽, AI 선거 오남용 방지 체계 공개…선거 허위정보 차단 99%

디지털데일리

2026. 4. 25. 오전 4:55

앤트로픽, AI 선거 오남용 방지 체계 공개…선거 허위정보 차단 99%

AI안전선거오남용정치편향허위정보평가체계유권자정보안전장치투표지원