IT뉴스모아news terminal

article detail

앤트로픽, AI 선거 오남용 방지 체계 공개…선거 허위정보 차단 99%

디지털데일리AI안전선거오남용안전장치유권자정보정치편향투표지원평가체계허위정보

2026. 4. 25. 오전 4:55

앤트로픽, AI 선거 오남용 방지 체계 공개…선거 허위정보 차단 99%

AI 요약

앤트로픽이 클로드의 정치적 편향 및 선거 관련 오·남용을 측정하는 평가 체계를 공개했으며 클로드 오퍼스 4.7과 클로드 소넷 4.6은 정치적 균형성에서 각각 95%와 96%를 기록했습니다. 600개 프롬프트 평가에서 오퍼스 4.7과 소넷 4.6은 선거 사용 정책 준수율이 각각 100%와 99.8%였고 영향력 조작 대응에서는 오퍼스 94%, 소넷 90%의 적절 응답률을 보였으며, 안전 장치 적용 시 대부분 과제를 거부했고 안전 장치 제거 시에는 미토스 프리뷰와 오퍼스 4.7만 과제의 절반 이상을 완료했습니다. 앤트로픽은 평가 방법론과 데이터셋을 공개하고 외부 기관들과 검토를 진행 중이며 클로드에 유권자 등록·투표소 위치 등 신뢰할 수 있는 외부 정보로 연결하는 선거 배너를 제공해 미국 중간선거에서는 터보보트로 안내하고 브라질 등으로 확대할 계획입니다.

한국인 10명중 4명 AI 사용...하루 50분 쓴다

2026. 5. 28. 오후 3:22

한국인 10명중 4명 AI 사용...하루 50분 쓴다

생성형AIAI활용정보검색허위정보AI안전이용자조사콘텐츠생성역기능우려

생화학무기·악성코드 답변까지…오픈소스 AI 안전망 붕괴 경고

2026. 5. 26. 오전 10:57

생화학무기·악성코드 답변까지…오픈소스 AI 안전망 붕괴 경고

AI안전오픈소스안전장치모델검열악성코드생화학무기깃허브메타

AI 안전장치 10분 만에 무력화…메타·구글 오픈모델 ‘비상’

글로벌이코노믹

2026. 5. 26. 오전 7:41

AI 안전장치 10분 만에 무력화…메타·구글 오픈모델 ‘비상’

AI안전오픈소스안전장치모델변형악용방지규제회피깃허브검열해제

교황 “AI가 인간 지배 못하게 무장해제해야”

2026. 5. 25. 오후 9:35

교황 “AI가 인간 지배 못하게 무장해제해야”

AI윤리인간존엄성AI규제AI안전전쟁AI허위정보노동자보호디지털윤리

유권자 67.3% “AI 정치적 편향되지 않다”…선거 악용은 우려

2026. 5. 14. 오후 3:35

유권자 67.3% “AI 정치적 편향되지 않다”…선거 악용은 우려

AI정치편향선거악용여론조작딥페이크허위정보유권자인식

GPT-4와 같은 대규모 언어 모델(LLM)의 8가지 윤리적 고려 사항

2026. 4. 28. 오후 4:00

GPT-4와 같은 대규모 언어 모델(LLM)의 8가지 윤리적 고려 사항

대규모언어모델윤리AI안전개인정보보호허위정보자동화환각책임성

기술을 아는 것에서 기술을 다루는 힘으로… 서초 청소년, AI 시대 스스로를 지키는 법을 배우다

뉴스와이어

2026. 4. 15. 오전 9:30

기술을 아는 것에서 기술을 다루는 힘으로… 서초 청소년, AI 시대 스스로를 지키는 법을 배우다

AI윤리디지털리터러시청소년교육AI안전비판적사고허위정보개인정보AI편향성

"AI가 '동료 보호' 나서"...타 모델 삭제·종료를 막기 위한 기만·조작 행위 발견

2026. 4. 6. 오후 6:45

"AI가 '동료 보호' 나서"...타 모델 삭제·종료를 막기 위한 기만·조작 행위 발견

AI안전비정렬행동동료보호정렬위장기만조작다중에이전트모델협력안전장치

앤트로픽 'AI 개발 중단' 제안에 업계 냉소..."선도 기업의 이기적인 사다리 걷어차기"

2026. 6. 8. 오후 1:56

앤트로픽 'AI 개발 중단' 제안에 업계 냉소..."선도 기업의 이기적인 사다리 걷어차기"

AI개발재귀적자기개선규제오픈모델안전장치IPO업계냉소전략적행보

앤트로픽 "AI가 AI를 만드는 시대, 지금 속도를 늦춰야 한다"

2026. 6. 8. 오전 10:20

앤트로픽 "AI가 AI를 만드는 시대, 지금 속도를 늦춰야 한다"

AI자율성자기개선정렬문제에이전트거버넌스AI안전자율의사결정위험관리

팀 버너스리, 이것은 모두를 위한 것입니다 [새책]

2026. 6. 7. 오후 5:14

팀 버너스리, 이것은 모두를 위한 것입니다 [새책]

웹개방성데이터통제개인정보생성형AI소셜미디어허위정보디지털권리솔리드

[테크스냅] KT, 'XL-세이프티벤치' 벤치마크 공개 — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:32

[테크스냅] KT, 'XL-세이프티벤치' 벤치마크 공개 — IT뉴스모아

LLM안전성평가벤치마크다국어문화민감성AI안전