IT뉴스모아news terminal

article detail

구글 AI 오버뷰, 10번 중 1번 오답…검색 규모에 하루 수천만 건 수준

digitaltoday.co.krAI오버뷰검색엔진구글벤치마크생성형AI정확도제미나이팩트체크
2026. 4. 8. 오전 11:30
구글 AI 오버뷰, 10번 중 1번 오답…검색 규모에 하루 수천만 건 수준

AI 요약

IT 매체 아스테크니카는 뉴욕타임스(NYT)의 분석을 인용해 NYT가 AI 스타트업 오우미와 함께 SimpleQA 벤치마크로 점검한 결과 제미나이 2.5일 때 약 85%, 제미나이 3 이후 약 91%의 정확도를 보였지만 10개 중 1개는 틀려 전체 검색 트래픽에 적용하면 시간당 수백만, 하루 수천만 건의 잘못된 답변이 생성될 수 있다고 보도했습니다. 실제로 밥 말리 옛집의 박물관 전환 시점과 요요 마의 ‘클래식 음악 명예의 전당’ 헌액 여부 질문 등에서 출처 상충이나 모순된 답변 사례가 확인됐습니다. 구글은 SimpleQA에 부정확한 데이터가 포함돼 있다며 내부적으로는 SimpleQA Verified와 유사한 엄격한 평가를 사용한다고 반박했고, 생성형 AI 평가의 구조적 어려움과 복수 모델 체계(질의 유형에 따라 경량 모델 사용 포함)를 지적하며 AI 오버뷰 하단에 재확인 안내 문구를 표시하고 있다고 설명했습니다

원문보기
feed://articles/related관련 기사
홍성군, 생성형 AI 교육으로 행정 혁신 추진전국매일신문
2026. 4. 13. 오전 11:52

홍성군, 생성형 AI 교육으로 행정 혁신 추진

생성형AI행정혁신직원교육디지털역량프롬프트문서자동화클라우드제미나이
국내 AI시장 판도 흔드는 클로드, 10위→3위로 껑충동아일보
2026. 4. 13. 오전 12:30

국내 AI시장 판도 흔드는 클로드, 10위→3위로 껑충

생성형AI클로드챗GPT제미나이앤스로픽시장점유율기업도입AI앱
국내 AI시장 판 흔드는 클로드… 앱 신규 설치 10위 → 3위로 쑥동아일보
2026. 4. 12. 오후 5:59

국내 AI시장 판 흔드는 클로드… 앱 신규 설치 10위 → 3위로 쑥

AI모델생성형AI클로드챗GPT제미나이앤스로픽시장점유율기업도입
클로드, 국내서 '톱3'로 수직 상승…AI시장 판도 흔든다v.daum.net
2026. 4. 12. 오전 9:19

클로드, 국내서 '톱3'로 수직 상승…AI시장 판도 흔든다

생성형AI클로드챗GPT제미나이모바일앱시장점유율신규설치활성이용자
클로드 '10위→톱3' 수직상승…AI시장 판도 흔든다네이트
2026. 4. 12. 오전 6:33

클로드 '10위→톱3' 수직상승…AI시장 판도 흔든다

생성형AI클로드챗GPT제미나이앱시장신규설치활성이용자시장점유율
검색, 멀티턴 시대로⋯네이버, 대화형 AI 검색 서비스 도입 [IT돋보기]v.daum.net
2026. 4. 11. 오전 7:31

검색, 멀티턴 시대로⋯네이버, 대화형 AI 검색 서비스 도입 [IT돋보기]

AI검색멀티턴대화형AI맞춤형탐색검색엔진AI브리핑생성형AI
[Tech Insight]구글 젬마4, 왜 오픈소스AI판 게임체인저로 주목 받나디지털투데이
2026. 4. 10. 오후 5:14

[Tech Insight]구글 젬마4, 왜 오픈소스AI판 게임체인저로 주목 받나

오픈소스AI생성형AI벤치마크엣지모델파인튜닝라이선스게임체인저
[종합] ‘메타의 반란’⋯ 오픈AI·구글 넘어선 ‘초지능 AI’ 터뜨렸다브릿지경제
2026. 4. 9. 오후 2:18

[종합] ‘메타의 반란’⋯ 오픈AI·구글 넘어선 ‘초지능 AI’ 터뜨렸다

AI모델초지능벤치마크생성형AI메타코딩능력생태계플랫폼
네이버, AI 챗봇 접는다…‘AI 비서’에 집중한국금융신문
2026. 4. 9. 오전 10:54

네이버, AI 챗봇 접는다…‘AI 비서’에 집중

AI챗봇생성형AI검색엔진AI비서플랫폼전략에이전트커머스광고
AI시대 언론의 미래는 ‘참 기자’에 있다 [왜냐면]한겨레
2026. 4. 8. 오후 7:26

AI시대 언론의 미래는 ‘참 기자’에 있다 [왜냐면]

AI생성형AI언론신뢰팩트체크기사자동화저널리즘정보검증현장취재
“화낸다고 달라질까”…AI는 감정을 가려 듣는다 [IT팀의 테크워치]v.daum.net
2026. 4. 7. 오후 5:25

“화낸다고 달라질까”…AI는 감정을 가려 듣는다 [IT팀의 테크워치]

AI모델감정인식프롬프트정확도벤치마크오픈소스추론능력상호작용
네이버 '연관검색어' 종료…검색 무게중심은 AI로비즈한국
2026. 4. 7. 오후 2:16

네이버 '연관검색어' 종료…검색 무게중심은 AI로

검색서비스AI브리핑생성형AI연관검색어대화형검색검색엔진