article detail
구글 AI 오버뷰, 10번 중 1번 오답…검색 규모에 하루 수천만 건 수준
2026. 4. 8. 오전 11:30

AI 요약
IT 매체 아스테크니카는 뉴욕타임스(NYT)의 분석을 인용해 NYT가 AI 스타트업 오우미와 함께 SimpleQA 벤치마크로 점검한 결과 제미나이 2.5일 때 약 85%, 제미나이 3 이후 약 91%의 정확도를 보였지만 10개 중 1개는 틀려 전체 검색 트래픽에 적용하면 시간당 수백만, 하루 수천만 건의 잘못된 답변이 생성될 수 있다고 보도했습니다. 실제로 밥 말리 옛집의 박물관 전환 시점과 요요 마의 ‘클래식 음악 명예의 전당’ 헌액 여부 질문 등에서 출처 상충이나 모순된 답변 사례가 확인됐습니다. 구글은 SimpleQA에 부정확한 데이터가 포함돼 있다며 내부적으로는 SimpleQA Verified와 유사한 엄격한 평가를 사용한다고 반박했고, 생성형 AI 평가의 구조적 어려움과 복수 모델 체계(질의 유형에 따라 경량 모델 사용 포함)를 지적하며 AI 오버뷰 하단에 재확인 안내 문구를 표시하고 있다고 설명했습니다


![[Tech Insight]구글 젬마4, 왜 오픈소스AI판 게임체인저로 주목 받나](https://cdn.digitaltoday.co.kr/news/photo/202604/655809_605485_5525.jpeg)
![[종합] ‘메타의 반란’⋯ 오픈AI·구글 넘어선 ‘초지능 AI’ 터뜨렸다](https://stqnq5ux4599.edge.naverncp.com/data2//content/image/2026/04/09/.cache/512/20260409500731.jpg?v=20260409143020)

![AI시대 언론의 미래는 ‘참 기자’에 있다 [왜냐면]](https://flexible.img.hani.co.kr/flexible/normal/800/533/imgdb/original/2026/0408/20260408503759.webp)