IT뉴스모아news terminal

article detail

AI에게 '질문하는 법' 가르쳤다…MIT, '배틀십' 게임으로 GPT-5도 뛰어넘은 저비용 AI 개발

인공지능신문AI모델과학연구데이터셋비용효율성능개선소형모델질문생성추론최적화
2026. 6. 4. 오후 7:18
AI에게 '질문하는 법' 가르쳤다…MIT, '배틀십' 게임으로 GPT-5도 뛰어넘은 저비용 AI 개발

AI 요약

미국 매사추세츠공과대학교(MIT) 컴퓨터과학 및 인공지능 연구소(CSAIL)와 하버드대학교 공학·응용과학대학원(SEAS) 연구진은 협력형 배틀십(Collaborative Battleship) 게임을 실험 환경으로 삼아 40명 이상 참가자 데이터를 기반으로 배틀십QA(BattleshipQA) 데이터셋을 구축하고, 많은 모델이 효과적인 질문을 생성하지 못해 소형 모델 성능이 떨어진다는 사실을 확인했습니다. 연구진은 몬테카를로 추론(Monte Carlo Inference)을 적용해 질문을 정보량 기준으로 계산하도록 했고, 그 결과 라마 4 스카우트의 승률이 8%에서 82%로 상승했으며 개선된 라마 4 스카우트는 GPT-5를 능가하는 성능을 보이면서 운영 비용은 약 1% 수준에 불과했습니다. 또한 질문을 자동으로 파이썬 코드로 변환해 검증하도록 해 모델들의 답변 정확도를 평균 15% 향상시켰고(GPT-4o mini 약 30%, 앤트로픽의 클로드 4 오퍼스 약 8%포인트), 연구진은 이 접근법이 신약 후보 탐색·분자 구조 규명·의료 진단·수학 문제 해결 등 과학 연구 보조에 활용될 수 있을 것으로 봤습니다.

원문보기
feed://articles/related관련 기사
MS, ‘오픈 AI 독립 선언’...자체 AI 모델 대거 공개v.daum.net
2026. 6. 3. 오후 2:57

MS, ‘오픈 AI 독립 선언’...자체 AI 모델 대거 공개

AI모델추론모델코딩모델이미지생성음성모델AI에이전트자체칩비용효율
마이크로소프트, 자체 AI 모델 공개…오픈AI 의존 줄이나초이스경제
2026. 6. 3. 오전 9:15

마이크로소프트, 자체 AI 모델 공개…오픈AI 의존 줄이나

AI모델자체개발비용효율음성인식음성생성이미지인식코드생성LLM
“한국, 주목할 만한 AI 출시 세계 3위…‘피지컬 AI’ 강점”한겨레
2026. 6. 1. 오후 3:38

“한국, 주목할 만한 AI 출시 세계 3위…‘피지컬 AI’ 강점”

AI모델산업로봇AI도입률AI특허거대언어모델피지컬AIAI투명성비용효율
중국산 AI+사람 조합 vs 오픈AI·앤트로픽의 고성능 AI…비용 더 낮은 쪽은 어디?네이트
2026. 5. 28. 오전 10:35

중국산 AI+사람 조합 vs 오픈AI·앤트로픽의 고성능 AI…비용 더 낮은 쪽은 어디?

AI모델비용효율중국산AI미국산AI딥시크오픈AI토큰가격인력결합
이훈 에이아이매틱스 대표 "차량 52만대로 검증한 온디바이스 AI, 산업 표준 될 것"AI타임스
2026. 5. 25. 오후 9:53

이훈 에이아이매틱스 대표 "차량 52만대로 검증한 온디바이스 AI, 산업 표준 될 것"

온디바이스AI자율주행엣지컴퓨팅AI모델모빌리티스마트팩토리VLM데이터셋
30억 작은 AI가 720억 거대 모델을 눌렀다, 비결은 옆에 앉힌 '잔소리꾼' 한 명이었다전자신문
2026. 5. 18. 오전 11:09

30억 작은 AI가 720억 거대 모델을 눌렀다, 비결은 옆에 앉힌 '잔소리꾼' 한 명이었다

AI검증매개변수성능개선추론최적화검증기법다중에이전트의사결정합성데이터
엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개AI타임스
2026. 5. 11. 오후 5:43

엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개

AI모델LLM경량화양자화모델압축추론최적화혼합전문가지식증류
몸값 61조 뛴 딥시크, 中 국가자산 격상…AI 반도체 수혜주는연합인포맥스
2026. 5. 10. 오전 9:33

몸값 61조 뛴 딥시크, 中 국가자산 격상…AI 반도체 수혜주는

AI모델반도체중국기업추론최적화칩메이커국가자산성능효율투자펀드
[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공네이트
2026. 5. 7. 오후 12:01

[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공

생성형AILLM피지컬AI데이터셋업사이클링AX디바이스NPUAI모델
'소재 AI'가 설계, '연구로봇'이 실험…신소재 개발 가속화대한민국 정책브리핑
2026. 4. 30. 오후 5:15

'소재 AI'가 설계, '연구로봇'이 실험…신소재 개발 가속화

소재AI신소재개발자율실험물성예측AI모델데이터셋융합인재연구인프라
한국형 AI 데이터 활용의 핵심, Nemotron-페르소나-코리아NVIDIA Blog Korea
2026. 4. 28. 오후 9:49

한국형 AI 데이터 활용의 핵심, Nemotron-페르소나-코리아

합성데이터AI모델데이터셋오픈소스개인정보보호한국어NLP모델편향성응답품질
망치 소리에 담긴 40년 숙련공 노하우, AI 공장에 넣는다한국경제
2026. 4. 28. 오후 3:17

망치 소리에 담긴 40년 숙련공 노하우, AI 공장에 넣는다

제조암묵지AI모델숙련공제조현장고령화데이터셋산업기술디지털화