article detail
구글, AI가 학습 데이터 스스로 설계하는 '시뮬라' 공개..."단순 베끼기는 끝나"
2026. 4. 27. 오후 6:38

AI 요약
구글과 스위스 로잔공과대학교(EPFL) 연구진은 합성 데이터를 체계적으로 설계·생성하는 프레임워크 시뮬라를 공개했으며, 이는 기존의 샘플 복제 방식 대신 물리 법칙·경제 논리 등 첫 번째 원칙에 기반한 메커니즘 디자인으로 데이터셋을 처음부터 논리적으로 빌드업하는 접근입니다. 시뮬라는 글로벌 다양성, 로컬 다양성, 복잡도 조정, 품질 검증(이중 검증)의 4단계 생성 프로세스로 계층적 분류 체계를 동적으로 구성하고 분류 체계 기반 커버리지와 복잡도 점수 같은 새로운 평가 지표로 데이터의 구조적 완성도를 분석합니다. 연구진은 다양한 도메인에서 최대 51만건 이상의 데이터를 생성해 기존 방식 대비 성능 향상을 확인했으며 구글은 이를 보안 모델·온디바이스 AI·스팸 탐지 등에 적용 중이고 전문가들은 시뮬라가 데이터 부족과 개인정보 문제를 해결할 수 있는 차세대 AI 인프라가 될 가능성이 크다고 평가했습니다.








