IT뉴스모아news terminal

article detail

AI 뉴스·리포트·논문·툴 활용 인사이트

AI매터스LLM강화학습대화능력벤치마크상호작용언어모델평가지표협업훈련
2026. 4. 8. 오후 12:04
AI 뉴스·리포트·논문·툴 활용 인사이트

AI 요약

세일즈포스 AI 연구팀이 2026년 4월 공개한 논문 Beyond the Assistant Turn은 LLM이 질문에 대한 정답률은 최대 96.8%(큐웬 계열, GSM8K)에 달하지만 동일 모델의 진성 후속 질문 생성률은 대부분 0%에 가깝게 나타나 대화 상대의 반응을 예측·생성하는 능력이 부족함을 실험으로 보여줬습니다. 온도를 높이면 일부 모델의 진성 후속 질문 생성률이 급증(큐웬3.5-27B는 T=0에서 0%→T=1.0에서 22%, GPQA Diamond는 1.5%→35.9%)했으나 gpt-oss-120b는 최대 온도에서도 0.1%에 그쳤고 모델 크기와 상호작용 인식 사이에는 일관된 상관관계가 없었습니다. 또한 CollabLLM 방식의 협업 지향 추가 훈련은 어시스턴트 응답 품질만을 목표로 했음에도 SFT에서 IFBench 후속 생성률을 1%→48%, GPQA를 2%→46%로 크게 높였고(강화학습은 수학 정확도 67.4% 유지), 논문은 현재 벤치마크가 어시스턴트 턴만 측정해 상호작용 인식을 예측하지 못하는 구조적 공백과 영어 중심·제한된 도메인 등 추가 검증 필요성을 지적했습니다.

원문보기
feed://articles/related관련 기사
뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"네이트
2026. 4. 10. 오후 6:00

뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"

LLM한국어특화벤치마크언어모델평가지표최적화알고리즘구어체데이터맥락이해
뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"네이트
2026. 4. 10. 오후 6:00

뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"

LLM한국어특화평가순위언어모델벤치마크자연어처리
[단독]코히어 창업자 "한국은 기업용 AI 비서 수요 넘쳐…통제 체계 필요"v.daum.net
2026. 4. 15. 오전 10:08

[단독]코히어 창업자 "한국은 기업용 AI 비서 수요 넘쳐…통제 체계 필요"

기업용AILLM에이전트챗봇AI비서언어모델워크플로통제체계
‘오늘 환율 묻자 1년전 정보’ AI 시간오류 개선동아일보
2026. 4. 15. 오전 4:30

‘오늘 환율 묻자 1년전 정보’ AI 시간오류 개선

LLM시간오류평가시스템시간환각언어모델AI검증시간데이터베이스
지니젠AI, ‘K-AI 리더보드’ 종합 2위 및 ‘첨단 GPU 활용 지원 사업’ 동시 선정v.daum.net
2026. 4. 14. 오후 2:36

지니젠AI, ‘K-AI 리더보드’ 종합 2위 및 ‘첨단 GPU 활용 지원 사업’ 동시 선정

한국어특화AI모델언어모델GPU영상생성스타트업정부지원벤치마크
“범용 데이터는 끝났다”… 플리토, 국어원 말뭉치 사업 수주더에이아이
2026. 4. 13. 오후 4:11

“범용 데이터는 끝났다”… 플리토, 국어원 말뭉치 사업 수주

말뭉치데이터구축언어모델AI학습다국어데이터기업LLM초개인화
뉴엔AI ‘QuettaLLMs’, K-AI 리더보드 종합 1위 등극…’질’로 승부한 한국어 특화 LLM벤처스퀘어
2026. 4. 10. 오후 3:51

뉴엔AI ‘QuettaLLMs’, K-AI 리더보드 종합 1위 등극…’질’로 승부한 한국어 특화 LLM

초거대언어모델한국어특화LLM리더보드벤치마크멀티모달구어체AI성능
[AI 클로즈업] 엑사원에 눈 달았다…LG AI연구원, 피지컬 AI 레이스 참전디지털데일리
2026. 4. 10. 오후 3:46

[AI 클로즈업] 엑사원에 눈 달았다…LG AI연구원, 피지컬 AI 레이스 참전

멀티모달AIVLM오픈소스LLM벤치마크휴머노이드오픈웨이트파라미터
메타, 초지능연구소 첫 AI 모델 ‘뮤즈 스파크’ 출시아시아투데이
2026. 4. 9. 오전 10:32

메타, 초지능연구소 첫 AI 모델 ‘뮤즈 스파크’ 출시

AI모델초지능메타언어모델벤치마크오픈소스추론능력멀티모달
메타, 슈퍼인텔리전스랩 첫 AI 모델 '뮤즈 스파크' 공개네이트
2026. 4. 9. 오전 5:05

메타, 슈퍼인텔리전스랩 첫 AI 모델 '뮤즈 스파크' 공개

AI모델슈퍼인텔리전스메타멀티모달벤치마크음성인식이미지생성LLM
LLM 성능 높인 업스테이지, '에이전틱 AI' 사업 확대뉴스토마토
2026. 4. 8. 오후 4:08

LLM 성능 높인 업스테이지, '에이전틱 AI' 사업 확대

LLM거대언어모델에이전트파운데이션강화학습보안자동화오픈소스AI플랫폼
AI 뉴스·리포트·논문·툴 활용 인사이트AI매터스
2026. 4. 8. 오전 11:58

AI 뉴스·리포트·논문·툴 활용 인사이트

LLM다양성답변품질모델라우팅앙상블평가지표오픈소스프롬프트