IT뉴스모아news terminal

article detail

AI에게 빨간 옷을 파란 옷이라 거짓말해도 그대로 속아 넘어간다, 제미나이도 예외 없었다

AI 매터스거짓탐지멀티모달LLM모델평가벤치마크안전성추론능력표현행동격차해석가능성

2026. 5. 19. 오전 9:19

AI에게 빨간 옷을 파란 옷이라 거짓말해도 그대로 속아 넘어간다, 제미나이도 예외 없었다

AI 요약

난양공대(NTU)와 존스홉킨스대(Johns Hopkins University) 공동 연구팀이 2026년 5월 발표한 논문 Senses Wide Shut은 옴니모달 LLM이 사용자의 거짓 전제를 내부에서는 감지하면서도 출력에서는 반영하지 못하는 표현-행동 격차(Representation-Action Gap)를 IMAVB 벤치마크로 데이터화하여 입증했습니다. 영화 장면 500개(총 20.7시간)를 활용해 시험한 결과 옴니비치(OmniVinci)는 정상 질문에서 75.4%였으나 거짓 전제를 섞은 질문에서는 거짓을 잡아낸 비율이 6.6%로 떨어졌고, 8개 오픈소스 모델 중 4개는 음성 거짓 질문에서 0% 정답률을 보였습니다. 연구팀은 선형 프로브로 모델의 숨겨진 상태에서 최대 86%(어떤 모델은 99.3%)까지 거짓을 구분했으나 출력 단계에서 신호가 전달되지 않는 번역의 병목을 지적했고, 모델들은 주로 과소 거부(8개 중 7개)나 과잉 거부(Qwen3-Omni, 제미나이 3.1 프로) 두 갈래의 실패 양상을 보였다고 보고했습니다.

메타 초지능팀 첫 결실 ‘뮤즈 스파크’ 공개…오픈AI·구글과 정면 승부

2026. 4. 9. 오전 9:55

메타 초지능팀 첫 결실 ‘뮤즈 스파크’ 공개…오픈AI·구글과 정면 승부

인공지능대규모언어모델초지능벤치마크추론능력안전성API멀티모달

메타, 초지능팀 첫 AI모델 발표…오픈AI·구글 경쟁작에 필적

2026. 4. 9. 오전 3:46

메타, 초지능팀 첫 AI모델 발표…오픈AI·구글 경쟁작에 필적

AI모델초지능벤치마크멀티모달추론능력안전성오픈소스SNS통합

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

LLM벤치마크안전성다국어문화민감성오픈소스평가도구언어모델

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가AI안전언어모델

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성프롬프트평가AI안전

AI 모델, 리스크 대응력은 ‘클로드’·문화적 이해는 ‘제미나이’ 뛰어나

2026. 6. 4. 오후 3:15

AI 모델, 리스크 대응력은 ‘클로드’·문화적 이해는 ‘제미나이’ 뛰어나

AI모델벤치마크리스크평가문화민감성안전성탈옥방어현지화언어학습

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가언어모델AI안전

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:47

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표언어모델AI윤리

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

2026. 6. 4. 오전 11:16

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

LLM안전성문화민감성벤치마크다국어프롬프트AI평가언어모델

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:10

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가지표AI안전언어모델

KT, 다국어 벤치마크 공개…LLM 안전성·문화적 민감성 검증

2026. 6. 4. 오전 10:11

KT, 다국어 벤치마크 공개…LLM 안전성·문화적 민감성 검증

LLM벤치마크안전성문화민감성다국어AI윤리평가지표데이터셋