IT뉴스모아news terminal

article detail

프리즘ML, 1비트 LLM '본자이' 발표…극단적 압축에도 모델 정확도 유지

디일렉LLM경량모델네이티브모델압축양자화오픈소스추론성능

2026. 4. 7. 오전 12:37

프리즘ML, 1비트 LLM '본자이' 발표…극단적 압축에도 모델 정확도 유지

AI 요약

캘리포니아공과대학(칼텍) 출신들이 창업한 스타트업 프리즘ML은 지난달 말 네이티브 1비트 LLM인 본자이(Bonsai) 8B와 더 작은 4B, 1.7B 모델을 공개했으며, 본자이 8B는 메모리 1.15GB로 구동된다고 소개했습니다. 본자이는 모든 가중치를 ±1로만 표현하고 128개 가중치마다 하나의 FP16 스케일 팩터를 공유해 실질적 저장 용량을 가중치당 1.125비트로 줄였으며, 이는 사후 양자화가 아닌 처음부터 1비트로 학습한 네이티브 아키텍처라고 설명했습니다. 프리즘ML에 따르면 본자이 8B는 아이폰 17 프로 맥스에서 초당 44토큰, M4 프로 탑재 맥에서 초당 131토큰, RTX 4090에서 초당 300~400토큰을 처리하고 지능 밀도는 1.06/GB로 알리바바 Qwen3 8B의 0.10/GB보다 높으며 아파치 2.0 오픈웨이트로 배포되었으나 커뮤니티 검증은 아직 미미합니다.

비드래프트 LLM ‘다윈 패밀리’, GPU 학습 없이 세계 3위 기록

2026. 5. 22. 오후 1:36

비드래프트 LLM ‘다윈 패밀리’, GPU 학습 없이 세계 3위 기록

LLM모델병합추론성능GPU학습다윈패밀리특허출원양자화오픈소스

"GPU 70% 줄였다"…BC카드, 美서 에이전틱 AI 운영 플랫폼 공개

nocutnews.co.kr

2026. 5. 18. 오전 10:20

"GPU 70% 줄였다"…BC카드, 美서 에이전틱 AI 운영 플랫폼 공개

에이전틱AI소형언어모델GPU최적화금융AI오픈소스추론성능비용절감LLM

엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개

2026. 5. 11. 오후 5:43

엔비디아, AI 모델 하나로 여러 크기 구현하는 '스타 엘라스틱' 공개

AI모델LLM경량화양자화모델압축추론최적화혼합전문가지식증류

개방·경량 AI 경쟁 본격화…구글 젬마4 확산

2026. 4. 7. 오전 6:15

개방·경량 AI 경쟁 본격화…구글 젬마4 확산

개방형AI경량모델오픈소스생태계에이전트온디바이스LLM

서울대 찾은 젠슨 황 "K만 붙이면 유명해진다…나는 K-젠슨"

연합인포맥스

2026. 6. 8. 오후 1:01

서울대 찾은 젠슨 황 "K만 붙이면 유명해진다…나는 K-젠슨"

AI엔비디아칩설계LLM오픈소스로봇에이전트신약개발

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

LLM벤치마크안전성다국어문화민감성오픈소스평가도구언어모델

구글, '젬마 4 QAT' 공개…“1GB 메모리로 AI 구동” 온디바이스 AI 대중화 가속

인공지능신문

2026. 6. 6. 오후 6:16

구글, '젬마 4 QAT' 공개…“1GB 메모리로 AI 구동” 온디바이스 AI 대중화 가속

온디바이스AI양자화모델압축오픈모델메모리최적화엣지컴퓨팅프라이버시로컬AI

중앙대학교, 생성AI 선도인재양성 사업 3건 동시 선정 쾌거

2026. 6. 5. 오전 11:01

중앙대학교, 생성AI 선도인재양성 사업 3건 동시 선정 쾌거

생성AI인재양성산학협력멀티모달LLMAI에이전트경량모델임베딩

네이버클라우드, 국내 기업 최초 엔비디아 AI 개발 연합체 참여

2026. 6. 5. 오전 8:52

네이버클라우드, 국내 기업 최초 엔비디아 AI 개발 연합체 참여

AI개발오픈소스생성형AILLM클라우드기술협력모델최적화

오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

바이라인네트워크

2026. 6. 4. 오후 5:08

오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

오픈소스오프라인AI기업용AILLM멀티모달엣지컴퓨팅매개변수벤치마크

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

Amazon Web Services (AWS)

2026. 5. 26. 오후 1:55

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

GPU서빙LLMEC2인스턴스비용최적화vLLM양자화A10G