article detail
LLM 검열 제거 도구 '헤레틱' 등장
2026. 5. 19. 오전 11:59
AI 요약
대규모 언어 모델(LLM)에 내장된 거부 기능을 단 한 줄의 명령어로 영구적으로 제거하는 오픈소스 도구 헤레틱이 등장했으며, 모델의 지능과 출력 품질은 보존하면서 거부 기능만 선택적으로 무력화합니다. 핵심 기술은 방향성 제거(어블리터레이션)로 유해·무해 명령어 집합의 내부 활성화 평균 차이로 거부 방향 벡터를 찾아 추론 시 해당 방향의 활성화를 제거하며, 32개 쌍만으로 작동하고 구글 젬마-3-12B-it 실험에서는 원본이 유해 프롬프트 100개 중 97개를 거부한 데 비해 헤레틱 적용 모델은 거부 횟수를 3회로 줄이고 KL 발산을 0.16으로 기록했습니다. 헤레틱은 라마, 큐웬, 젬마 등 수십 종의 트랜스포머 기반 모델과 다양한 변형 도구(블래스피머 등)를 지원하며, 완전 자동화로 인한 악용 위험과 윤리적 논란이 제기되는 가운데 공식 깃허브(https://github.com/p-e-w/heretic)에서 AGPL v3.0으로 배포됩니다.






