IT뉴스모아news terminal

article detail

AI 뉴스·리포트·논문·툴 활용 인사이트

AI매터스LLM강화학습대화능력벤치마크상호작용언어모델평가지표협업훈련
2026. 4. 8. 오후 12:04
AI 뉴스·리포트·논문·툴 활용 인사이트

AI 요약

세일즈포스 AI 연구팀이 2026년 4월 공개한 논문 Beyond the Assistant Turn은 LLM이 질문에 대한 정답률은 최대 96.8%(큐웬 계열, GSM8K)에 달하지만 동일 모델의 진성 후속 질문 생성률은 대부분 0%에 가깝게 나타나 대화 상대의 반응을 예측·생성하는 능력이 부족함을 실험으로 보여줬습니다. 온도를 높이면 일부 모델의 진성 후속 질문 생성률이 급증(큐웬3.5-27B는 T=0에서 0%→T=1.0에서 22%, GPQA Diamond는 1.5%→35.9%)했으나 gpt-oss-120b는 최대 온도에서도 0.1%에 그쳤고 모델 크기와 상호작용 인식 사이에는 일관된 상관관계가 없었습니다. 또한 CollabLLM 방식의 협업 지향 추가 훈련은 어시스턴트 응답 품질만을 목표로 했음에도 SFT에서 IFBench 후속 생성률을 1%→48%, GPQA를 2%→46%로 크게 높였고(강화학습은 수학 정확도 67.4% 유지), 논문은 현재 벤치마크가 어시스턴트 턴만 측정해 상호작용 인식을 예측하지 못하는 구조적 공백과 영어 중심·제한된 도메인 등 추가 검증 필요성을 지적했습니다.

원문보기
feed://articles/related관련 기사
뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"네이트
2026. 4. 10. 오후 6:00

뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"

LLM한국어특화벤치마크언어모델평가지표최적화알고리즘구어체데이터맥락이해
셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'v.daum.net
2026. 5. 14. 오후 3:20

셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'

LLM레드티밍취약점탐지자연어처리AI안전언어모델공격성공률벤치마크
웨어큐브, 비드래프트와 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성네이트
2026. 4. 29. 오후 3:32

웨어큐브, 비드래프트와 공동 개발한 자체 LLM으로 K-AI 리더보드 3위 달성

LLM한국어AI리더보드벤치마크AI전환제조업언어모델협업
뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"네이트
2026. 4. 10. 오후 6:00

뉴엔AI, 국내 AI 평가서 '종합 1위'…"한국어 특화 입증"

LLM한국어특화평가순위언어모델벤치마크자연어처리
젠슨 황, 네이버와 손잡고 글로벌 AI팩토리 협력 강화v.daum.net
2026. 6. 2. 오후 12:52

젠슨 황, 네이버와 손잡고 글로벌 AI팩토리 협력 강화

AI생태계LLMGPU언어모델물리AI클라우드협력인프라
"작지만 강했다" 240억 몰린 AI 스타트업, 다음 승부처는?유니콘팩토리
2026. 5. 30. 오전 7:00

"작지만 강했다" 240억 몰린 AI 스타트업, 다음 승부처는?

AI스타트업언어모델투자유치파운데이션소형모델독자개발LLMVLM
친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시디지털 인사이트 DIGITAL iNSIGHT
2026. 5. 29. 오후 2:11

친사회성 역대 최고… 앤트로픽, ‘클로드 오푸스 4.8’ 출시

LLM생성형AI클로드할루시네이션에이전트코딩벤치마크
“LLM은 거짓을 거짓으로 알면서도 사실처럼 말한다”… 미세조정 실험으로 드러난 ‘자신감 편향’AI 매터스
2026. 5. 29. 오전 10:24

“LLM은 거짓을 거짓으로 알면서도 사실처럼 말한다”… 미세조정 실험으로 드러난 ‘자신감 편향’

LLM자신감편향미세조정사실성거짓정보프롬프트벤치마크안전성
에이전트가 끌고 온톨로지가 민다…솔트룩스 "데이터 의미·관계 꿰뚫는 AI 온다"네이트
2026. 5. 28. 오후 2:19

에이전트가 끌고 온톨로지가 민다…솔트룩스 "데이터 의미·관계 꿰뚫는 AI 온다"

에이전트온톨로지LLM데이터구조화기업시스템언어모델도메인특화AI아바타
“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]v.daum.net
2026. 5. 27. 오전 7:01

“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

AI성능측정벤치마크에이전트코딩능력추론능력실전평가성능괴리LLM
DMind AI, Web3 특화 LLM 벤치마크 연구 공개네이트
2026. 5. 26. 오후 3:48

DMind AI, Web3 특화 LLM 벤치마크 연구 공개

LLM벤치마크Web3블록체인스마트컨트랙트DeFi오픈소스금융
[포토뉴스] 배재대, 'LLM과 생성형 AI 최신기술 활용' 교육네이트
2026. 5. 22. 오후 4:06

[포토뉴스] 배재대, 'LLM과 생성형 AI 최신기술 활용' 교육

LLM생성형AI디지털역량AI교육언어모델실무교육프로젝트역량강화