IT뉴스모아news terminal

article detail

AI 뉴스·리포트·논문·툴 활용 인사이트

AI매터스LLM다양성답변품질모델라우팅앙상블오픈소스평가지표프롬프트

2026. 4. 8. 오전 11:58

AI 뉴스·리포트·논문·툴 활용 인사이트

AI 요약

뉴욕대학교, 스탠퍼드대학교, 카네기멜론대학교 공동 연구팀은 AI 모델 답변의 폭과 질을 동시에 측정하는 다양성 커버리지(Diversity Coverage) 지표를 제안하고 18개 LLM을 분석한 결과 모든 질문에 가장 다양하고 질 높은 답변을 생성하는 단일 모델은 존재하지 않음을 발견했습니다. 질문마다 최적 모델이 달라 질문만 보고 18개 후보 중 하나를 선택하는 라우터를 훈련하면 NB-WildChat에서 26.3%의 다양성 커버리지를 기록해 단일 최적 모델(23.8%)보다 성능이 높아졌고, 두 모델을 조합하면 NB-WildChat에서 약 26.7%, NB-Curated에서 약 42.2%로 더 향상했습니다. 다만 라우터 성능은 프롬프트 방식과 학습 데이터 양에 민감하고 본 연구는 18개 오픈소스 모델만 대상으로 했기 때문에 GPT-4나 클로드 같은 클로즈드 모델을 포함하면 결과가 달라질 수 있으며 라우터 훈련에는 후보 모델의 답변 전제 생성으로 초기 비용이 크다고 연구진은 밝혔습니다.

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전

LLM 검열 제거 도구 '헤레틱' 등장

2026. 5. 19. 오전 11:59

LLM 검열 제거 도구 '헤레틱' 등장

LLM검열제거오픈소스안전장치프롬프트벡터제거트랜스포머윤리논란

서울대 찾은 젠슨 황 "K만 붙이면 유명해진다…나는 K-젠슨"

연합인포맥스

2026. 6. 8. 오후 1:01

서울대 찾은 젠슨 황 "K만 붙이면 유명해진다…나는 K-젠슨"

AI엔비디아칩설계LLM오픈소스로봇에이전트신약개발

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

LLM벤치마크안전성다국어문화민감성오픈소스평가도구언어모델

당신이 쓴 프롬프트, 최선이었을까요?

2026. 6. 5. 오전 8:00

당신이 쓴 프롬프트, 최선이었을까요?

생성형AI프롬프트LLM자동화성능최적화진화알고리즘자연어처리반복개선

네이버클라우드, 국내 기업 최초 엔비디아 AI 개발 연합체 참여

2026. 6. 5. 오전 8:52

네이버클라우드, 국내 기업 최초 엔비디아 AI 개발 연합체 참여

AI개발오픈소스생성형AILLM클라우드기술협력모델최적화

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성프롬프트평가AI안전

오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

바이라인네트워크

2026. 6. 4. 오후 5:08

오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

오픈소스오프라인AI기업용AILLM멀티모달엣지컴퓨팅매개변수벤치마크

[AI는 지금] 모델보다 플랫폼…기업 AI 에이전트 전략 바뀐다

2026. 6. 4. 오후 3:48

[AI는 지금] 모델보다 플랫폼…기업 AI 에이전트 전략 바뀐다

AI에이전트LLM플랫폼전략멀티모델프롬프트RAG파인튜닝데이터연결

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:47

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표언어모델AI윤리

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

2026. 6. 4. 오전 11:16

'민감한 문화 차이 반영했나' KT, AI 평가 다국어 벤치마크 개발

LLM안전성문화민감성벤치마크다국어프롬프트AI평가언어모델

KT, 다국어 벤치마크 'XL-세이프티벤치' 공개

글로벌이코노믹

2026. 6. 4. 오전 10:53

KT, 다국어 벤치마크 'XL-세이프티벤치' 공개

다국어벤치마크LLMAI안전성문화민감성프롬프트평가데이터신뢰성