IT뉴스모아news terminal

article detail

엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개

AI타임스AI모델LLM경량화모델압축양자화지식증류추론최적화혼합전문가

2026. 5. 11. 오후 5:43

엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개

AI 요약

엔비디아는 9일 하나의 LLM 체크포인트에서 여러 크기의 하위 모델을 동시에 포함하는 사후 학습 기술 '스타 엘라스틱'을 공개했으며, 네모트론 나노 v3(300억개 매개변수, 실제 활성 매개변수 36억개) 기반으로 하나의 학습으로 23B(활성 28억개)와 12B(활성 20억개) 버전을 생성할 수 있도록 설계했습니다. 연구진은 중요도 추정에 따른 중첩 가중치 공유와 MoE에서의 라우터 가중 전문가 활성 프루닝(REAP), Gumbel-Softmax 기반 학습형 라우터와 지식 증류를 도입해 하위 모델 구조를 자동 선택·학습하도록 했고, 긴 추론은 작은 모델이, 최종 답변은 큰 모델이 처리하는 전략으로 최대 16% 높은 정확도와 최대 1.9배 낮은 지연시간을 기록했다고 밝혔습니다. 단일 NVFP4 양자화 체크포인트로 저장공간을 126.1GB에서 58.9GB로 줄였고 학습 토큰 사용량을 최대 360배 절감했으며, 엘라스틱-23B는 일부 벤치마크에서 큐원3-30B-A3B를 능가하고 AIME 2025에서 85.63점을 기록했다고 설명했습니다.

비드래프트, GPU 재학습 없는 LLM 프레임워크 ‘Darwin Family’ 기술 공개

2026. 5. 19. 오후 4:53

비드래프트, GPU 재학습 없는 LLM 프레임워크 ‘Darwin Family’ 기술 공개

LLM모델병합추론최적화GPU효율화파인튜닝양자화프레임워크특허기술

비드래프트, GPU 재학습 없는 LLM 프레임워크 'Darwin Family' 기술 공개

2026. 5. 19. 오후 4:56

비드래프트, GPU 재학습 없는 LLM 프레임워크 'Darwin Family' 기술 공개

LLM모델병합추론최적화GPU효율화언어모델특허기술양자화프레임워크

“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손

2026. 5. 12. 오후 12:47

“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손

AI최적화양자화NPU모델압축지식증류추론속도하드웨어비전AI

프리즘ML, 1비트 LLM '본자이' 발표…극단적 압축에도 모델 정확도 유지

2026. 4. 7. 오전 12:37

프리즘ML, 1비트 LLM '본자이' 발표…극단적 압축에도 모델 정확도 유지

LLM양자화모델압축네이티브오픈소스추론성능경량모델

네이버·엔비디아, GW급 초대형 AI 팩토리 구축한다

2026. 6. 8. 오전 9:32

네이버·엔비디아, GW급 초대형 AI 팩토리 구축한다

AI팩토리데이터센터GPU인프라LLMAI모델협력사업하이퍼스케일월드모델

구글, '젬마 4 QAT' 공개…“1GB 메모리로 AI 구동” 온디바이스 AI 대중화 가속

인공지능신문

2026. 6. 6. 오후 6:16

구글, '젬마 4 QAT' 공개…“1GB 메모리로 AI 구동” 온디바이스 AI 대중화 가속

온디바이스AI양자화모델압축오픈모델메모리최적화엣지컴퓨팅프라이버시로컬AI

[스노우플레이크 서밋 26] 베누아 다쥬빌 공동창업자 “기업 AI, 데이터 이동 최소화가 핵심”

2026. 6. 6. 오후 12:00

[스노우플레이크 서밋 26] 베누아 다쥬빌 공동창업자 “기업 AI, 데이터 이동 최소화가 핵심”

기업AI데이터거버넌스멀티클라우드데이터공유LLM데이터통합클라우드플랫폼AI모델

[데스크칼럼] LLM 기술 각축전…성능 경쟁서 가성비·효율 경쟁으로

2026. 6. 5. 오후 4:00

[데스크칼럼] LLM 기술 각축전…성능 경쟁서 가성비·효율 경쟁으로

LLM경량화효율성엣지컴퓨팅온디바이스AI가속기탄소배출실용모델

AI에게 '질문하는 법' 가르쳤다…MIT, '배틀십' 게임으로 GPT-5도 뛰어넘은 저비용 AI 개발

인공지능신문

2026. 6. 4. 오후 7:18

AI에게 '질문하는 법' 가르쳤다…MIT, '배틀십' 게임으로 GPT-5도 뛰어넘은 저비용 AI 개발

AI모델질문생성소형모델추론최적화데이터셋비용효율성능개선과학연구

노타, 이기종 컴퓨팅 기반 LLM 최적화 구현…"실행효율 제고 노력"

2026. 6. 4. 오전 8:53

노타, 이기종 컴퓨팅 기반 LLM 최적화 구현…"실행효율 제고 노력"

LLM이기종컴퓨팅추론최적화AIPCNPUGPU온디바이스AI에너지효율

[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다

2026. 6. 4. 오전 9:10

[테크스냅] AI PC서 GPU·NPU 분산 활용…노타, LLM 추론 효율 높인다

AIPCGPUNPULLM추론최적화이기종컴퓨팅에너지효율벤치마크

노타, GPU·NPU 동시 활용 AI 추론 기술 구현에 13%↑[특징주]

2026. 6. 4. 오전 9:11

노타, GPU·NPU 동시 활용 AI 추론 기술 구현에 13%↑[특징주]

AI추론GPUNPULLM이기종컴퓨팅에너지효율온디바이스AI추론최적화