article detail
기존 AI허브 데이터, 업사이클링 통해 추론용 학습 데이터로 새롭게 혁신
2026. 5. 7. 오후 11:15
AI 요약
과학기술정보통신부(부총리 겸 과기정통부 장관 배경훈)와 한국지능정보사회진흥원(원장 김형철)은 지난달 30일부터 기존 AI 허브 데이터를 생성형 AI 기술 환경에 맞게 재가공하는 'AI 학습용데이터 업사이클링' 사업 공고를 시작한다고 7일 밝혔습니다. 이번 사업은 대형언어모델(LLM)과 피지컬 AI 분야를 중심으로 총 30종의 데이터셋을 재가공(30억원 규모)하며, 2022년까지 구축된 AI허브 데이터 691종을 전수 분석하고 외부 전문가 검토를 거쳐 최종 30종을 선정했습니다. LLM 분야는 질문-근거 검토-오류 검증-답변 확정 등 추론과 자기검증 과정을 포함하도록 데이터를 재구성하고, 피지컬 AI 분야는 기존 이미지·영상 데이터를 기반으로 시각 정보(V), 언어명령(L), 행동 및 제어(A)를 통합해 시간 흐름과 객체 상호작용을 이해하고 목표 기반 행동을 생성할 수 있도록 데이터를 고도화하며, 업사이클링된 데이터는 AI Hub를 통해 공개될 예정입니다.
![[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공](https://news.nateimg.co.kr/orgImg/yt/2026/05/07/PCM20240403000097990_P2.jpg)




