article detail
AI 뉴스·리포트·논문·툴 활용 인사이트
2026. 4. 8. 오전 11:58

AI 요약
뉴욕대학교, 스탠퍼드대학교, 카네기멜론대학교 공동 연구팀은 AI 모델 답변의 폭과 질을 동시에 측정하는 다양성 커버리지(Diversity Coverage) 지표를 제안하고 18개 LLM을 분석한 결과 모든 질문에 가장 다양하고 질 높은 답변을 생성하는 단일 모델은 존재하지 않음을 발견했습니다. 질문마다 최적 모델이 달라 질문만 보고 18개 후보 중 하나를 선택하는 라우터를 훈련하면 NB-WildChat에서 26.3%의 다양성 커버리지를 기록해 단일 최적 모델(23.8%)보다 성능이 높아졌고, 두 모델을 조합하면 NB-WildChat에서 약 26.7%, NB-Curated에서 약 42.2%로 더 향상했습니다. 다만 라우터 성능은 프롬프트 방식과 학습 데이터 양에 민감하고 본 연구는 18개 오픈소스 모델만 대상으로 했기 때문에 GPT-4나 클로드 같은 클로즈드 모델을 포함하면 결과가 달라질 수 있으며 라우터 훈련에는 후보 모델의 답변 전제 생성으로 초기 비용이 크다고 연구진은 밝혔습니다.
![[유철균의 ‘지방의 눈으로 AI읽기’] 국가 예산 추적업](https://www.yeongnam.com/mnt/file/202604/news-p.v1.20260110.98fed46e34534ed3ad9e770048155a9b_R.jpg)




