article detail
AI 뉴스·리포트·논문·툴 활용 인사이트
2026. 4. 8. 오후 12:04

AI 요약
세일즈포스 AI 연구팀이 2026년 4월 공개한 논문 Beyond the Assistant Turn은 LLM이 질문에 대한 정답률은 최대 96.8%(큐웬 계열, GSM8K)에 달하지만 동일 모델의 진성 후속 질문 생성률은 대부분 0%에 가깝게 나타나 대화 상대의 반응을 예측·생성하는 능력이 부족함을 실험으로 보여줬습니다. 온도를 높이면 일부 모델의 진성 후속 질문 생성률이 급증(큐웬3.5-27B는 T=0에서 0%→T=1.0에서 22%, GPQA Diamond는 1.5%→35.9%)했으나 gpt-oss-120b는 최대 온도에서도 0.1%에 그쳤고 모델 크기와 상호작용 인식 사이에는 일관된 상관관계가 없었습니다. 또한 CollabLLM 방식의 협업 지향 추가 훈련은 어시스턴트 응답 품질만을 목표로 했음에도 SFT에서 IFBench 후속 생성률을 1%→48%, GPQA를 2%→46%로 크게 높였고(강화학습은 수학 정확도 67.4% 유지), 논문은 현재 벤치마크가 어시스턴트 턴만 측정해 상호작용 인식을 예측하지 못하는 구조적 공백과 영어 중심·제한된 도메인 등 추가 검증 필요성을 지적했습니다.


![[AI 클로즈업] 엑사원에 눈 달았다…LG AI연구원, 피지컬 AI 레이스 참전](https://www.ddaily.co.kr/photos/2026/04/10/2026041015352957716_l.jpg)


