article detail
'AI허브' 데이터 30종 업사이클링…추론 학습용 고도화
2026. 5. 7. 오후 2:58

AI 요약
과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI허브의 2022년까지 데이터 691종을 전수 분석해 생성형 AI용으로 확장 가능한 30종을 선정하고 총 30억원을 투입해 기존 판별형 라벨링 데이터를 생성형 학습용 데이터로 재가공하는 'AI 학습용 데이터 업사이클링' 사업을 시작했습니다. LLM 분야에서는 추론 과정과 복수 추론 경로·자기 검증 등을 포함하도록 데이터를 재구성하고, 피지컬 AI 분야에서는 시각(V)·언어(L)·행동(A)을 통합해 시간 흐름과 객체 상호작용 기반의 목표지향 행동 데이터를 만들며, 업사이클링을 마친 데이터는 AI허브에서 공개될 예정입니다.



![[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공](https://news.nateimg.co.kr/orgImg/yt/2026/05/07/PCM20240403000097990_P2.jpg)
