article detail
쌓아둔 AI데이터 다시 쓴다…'추론형' 학습 데이터로 재구성
2026. 5. 7. 오후 12:01
AI 요약
과학기술정보통신부는 한국지능정보사회진흥원과 함께 'AI 학습용 데이터 업사이클링' 사업을 추진해 기존 AI허브 데이터를 생성형 AI 환경에 맞게 재가공하는 데 총 30억원을 투입한다고 7일 밝혔습니다. 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석해 생성형 AI 활용 가능성 등을 기준으로 30종을 선정하고, LLM 분야는 질의응답 구조를 '질문-근거 검토-오류 검증-답변 확정'의 추론 과정 중심으로, 피지컬 AI는 시각·언어·행동을 결합해 시간 흐름과 상호작용을 이해하고 목표 기반 행동을 생성할 수 있는 구조로 재구성하는 방식으로 진행됩니다. 재가공된 데이터는 향후 AI 허브를 통해 개방되어 기업과 연구기관, 스타트업 등이 활용할 수 있도록 하고, 과기정통부는 이를 통해 적은 비용으로 최신 생성형 AI 기술 환경에 맞는 학습용 데이터를 확보하겠다고 밝혔습니다.




![[테크스냅] 정부 데이터셋, LLM·피지컬AI용으로 재가공](https://news.nateimg.co.kr/orgImg/yt/2026/05/07/PCM20240403000097990_P2.jpg)
