IT뉴스모아news terminal

article detail

LLM 검열 제거 도구 '헤레틱' 등장

BI KOREALLM검열제거벡터제거안전장치오픈소스윤리논란트랜스포머프롬프트

2026. 5. 19. 오전 11:59

LLM 검열 제거 도구 '헤레틱' 등장

AI 요약

대규모 언어 모델(LLM)에 내장된 거부 기능을 단 한 줄의 명령어로 영구적으로 제거하는 오픈소스 도구 헤레틱이 등장했으며, 모델의 지능과 출력 품질은 보존하면서 거부 기능만 선택적으로 무력화합니다. 핵심 기술은 방향성 제거(어블리터레이션)로 유해·무해 명령어 집합의 내부 활성화 평균 차이로 거부 방향 벡터를 찾아 추론 시 해당 방향의 활성화를 제거하며, 32개 쌍만으로 작동하고 구글 젬마-3-12B-it 실험에서는 원본이 유해 프롬프트 100개 중 97개를 거부한 데 비해 헤레틱 적용 모델은 거부 횟수를 3회로 줄이고 KL 발산을 0.16으로 기록했습니다. 헤레틱은 라마, 큐웬, 젬마 등 수십 종의 트랜스포머 기반 모델과 다양한 변형 도구(블래스피머 등)를 지원하며, 완전 자동화로 인한 악용 위험과 윤리적 논란이 제기되는 가운데 공식 깃허브(https://github.com/p-e-w/heretic)에서 AGPL v3.0으로 배포됩니다.

경상국립대학교 AI융합원, 경남과학고 학생에게 ‘생성형 AI 리터러시’ 강의

2026. 5. 22. 오전 8:10

경상국립대학교 AI융합원, 경남과학고 학생에게 ‘생성형 AI 리터러시’ 강의

생성형AIAI리터러시LLM프롬프트AI교육트랜스포머할루시네이션비판적평가

세종대 학술정보원, 제10회 학정포럼 개최… “AI 시대, 지능 활용 능력이 핵심 경쟁력”

핀포인트뉴스

2026. 4. 19. 오전 10:24

세종대 학술정보원, 제10회 학정포럼 개최… “AI 시대, 지능 활용 능력이 핵심 경쟁력”

AILLMAGI트랜스포머에이전트자율주행AI리터러시프롬프트

AI 뉴스·리포트·논문·툴 활용 인사이트

2026. 4. 8. 오전 11:58

AI 뉴스·리포트·논문·툴 활용 인사이트

LLM다양성답변품질모델라우팅앙상블평가지표오픈소스프롬프트

서울대 찾은 젠슨 황 "K만 붙이면 유명해진다…나는 K-젠슨"

연합인포맥스

2026. 6. 8. 오후 1:01

서울대 찾은 젠슨 황 "K만 붙이면 유명해진다…나는 K-젠슨"

AI엔비디아칩설계LLM오픈소스로봇에이전트신약개발

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

LLM벤치마크안전성다국어문화민감성오픈소스평가도구언어모델

당신이 쓴 프롬프트, 최선이었을까요?

2026. 6. 5. 오전 8:00

당신이 쓴 프롬프트, 최선이었을까요?

생성형AI프롬프트LLM자동화성능최적화진화알고리즘자연어처리반복개선

네이버클라우드, 국내 기업 최초 엔비디아 AI 개발 연합체 참여

2026. 6. 5. 오전 8:52

네이버클라우드, 국내 기업 최초 엔비디아 AI 개발 연합체 참여

AI개발오픈소스생성형AILLM클라우드기술협력모델최적화

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성프롬프트평가AI안전

오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

바이라인네트워크

2026. 6. 4. 오후 5:08

오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

오픈소스오프라인AI기업용AILLM멀티모달엣지컴퓨팅매개변수벤치마크

[AI는 지금] 모델보다 플랫폼…기업 AI 에이전트 전략 바뀐다

2026. 6. 4. 오후 3:48

[AI는 지금] 모델보다 플랫폼…기업 AI 에이전트 전략 바뀐다

AI에이전트LLM플랫폼전략멀티모델프롬프트RAG파인튜닝데이터연결

구글, 노트북용 멀티모달 '젬마 4 12B' 출시..."인코더 빼고 경량화 성공"

2026. 6. 4. 오후 3:22

구글, 노트북용 멀티모달 '젬마 4 12B' 출시..."인코더 빼고 경량화 성공"

멀티모달오픈웨이트경량화트랜스포머LLM노트북인코더컨텍스트

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전