“미래는 가짜다”…AI 모델 훈련에서 합성데이터의 부상

현실에서 고품질 데이터 수집은 비용이 많이 들고 시간이 많이 소요
합성 데이터는 레이블이 지정된 고품질 데이터를 무제한으로 제공
합성 데이터는 발생 가능성이 낮은 데이터에 대한 AI 학습에 효과적
소수의 실제 데이터를 기반으로 AI 모델을 사용해 합성 데이터 생성

합성 데이터(Synthetic data)는 수동으로 레이블을 지정하는 데이터 비용의 일부만으로 완벽하게 레이블이 지정된 데이터를 무제한으로 보유할 수 있는 방법을 제공한다.

기술매체 버딕트(Verdict)가 보도했듯이 현실 세계에서 고품질 데이터를 수집하는 것은 복잡하고 비용이 많이 들고 시간이 많이 소요될 수 있다. 데이터를 정리하고 레이블을 지정하는 데 특히 비용이 많이 들 수 있으며 데이터를 수집하고 처리하는 데 사용되는 방법에 따라 편향될 수 있다. 실제 데이터가 항상 100% 정확하거나 AI 모델을 훈련할 만큼 충분히 높은 품질은 아니다.

예를 들어, 실제 이미지 데이터는 AI 모델을 훈련하는 데 사용되기 전에 사람이 레이블을 지정해야 한다. 레이블 지정은 수행하는 사람(및 해당 작업을 수행할 때 얼마나 피곤하거나 숙취가 있는지)에 따라 달라질 수 있을 뿐만 아니라 부정확하거나 불완전할 수 있으며 이는 AI 모델의 성능에 영향을 미치고 비용이 많이 들게 할 수 있다. 2022년 5월 게임 소프트웨어 회사 유니티(Unity)는 ML 모델을 손상시키고 궁극적으로 광고 비즈니스에 영향을 미치는 '잘못된 데이터'를 인용해 1억 달러의 손실을 입었다.

합성 데이터를 생성하는 것은 모델에서 '엣지 케이스(edge case)'를 훈련하는 데 특히 유용할 수 있다. 이러한 엣지 케이스는 자율주행차(AV) 컴퓨터 비전 훈련에 많은데, 드물게 발생하는 시나리오에 대한 이런 AI 모델 훈련은 안전을 위해 가장 중요하다.

예를 들어 길을 건너는 캥거루에 적절히 반응하도록 AV 모델을 훈련하려면 레이블이 잘 지정된 고품질 비디오 영상 몇 시간 분량이 필요하다. 이러한 양의 고품질 데이터를 수집하고 레이블을 지정하는 것은 실현 가능하지 않을 수 있으므로 대신 생성적 적대 네트워크(GAN)를 사용해 시뮬레이션할 수 있다. 몇 시간의 새로운 비디오 장면을 수집하는 대신 캥거루에 대해서도 비디오 생성 및 데이터 시뮬레이션을 반복할 수 있다.

또한 롱테일(longtail) 데이터는 AI 모델을 훈련하는 데 필요하지만 이 데이터를 쉽게 이용할 수 없을 수도 있다. 통계학에 근원을 둔 '롱테일'이란 단어는 발생 가능성이 낮은 다수의 사건들이 통계분포의 한쪽에 길게 분포돼 있는 현상을 말한다. 롱테일은 AI 시스템의 설계와 운영에도 큰 영향을 미친다. 현존 AI 시스템은 롱테일 데이터에 특히 취약한데, 이는 발생 가능성이 낮아 대량의 데이터를 필요로 하는 AI 학습 데이터에 포함돼 있지 않기 때문이다.

예를 들어 2016년 3월 폭설 예보가 있었던 미국 북동부 지역에서는 사고를 예방하기 위해 고속도로에 다량의 소금을 뿌렸는데 이때 테슬라는 차선과 소금 라인을 혼동해 자율주행에 어려움을 겪었다. 차선과 평행한 모양의 소금 라인은 자율주행차의 학습 데이터에 없었던 롱테일에 속한 사건이었기 때문이다.

합성 데이터를 생성하는 것은 모델에서 '엣지 케이스(edge case)'를 훈련하는 데 특히 유용할 수 있다. 이러한 엣지 케이스는 자율주행차(AV) 컴퓨터 비전 훈련에 많으며, 이러한 드물게 발생하는 시나리오에 대한 AI 모델 훈련은 안전을 위해 가장 중요하다.(사진=Ayadata)

데이터 엔지니어는 모든 실제 시나리오에서 실행 가능한 데이터를 캡처할 수는 없지만 구축된 플랫폼에서 데이터를 추출, 구성 및 정리하는 데 시간을 할애할 수 있다. 추출된 소수의 데이터를 기반으로 고전적인 통계 모델이나 전통적인 기계 학습(ML)을 사용하여 합성 데이터를 알고리즘 방식으로 생성할 수 있다. 비용이 많이 들고 시간이 많이 걸리며 오류가 발생하기 쉬운 프로세스인 데이터 레이블 지정이 필요하지 않다.

그러나 합성 데이터는 생성에 사용된 알고리즘에 따라 편향될 수 있다. 합성 데이터를 사용하는 경우 합성 데이터와 실제 데이터를 혼합해 모델을 훈련하고 테스트할 가능성이 높다.

새로운 형식의 합성 데이터가 앞으로 등장할 것이다. 향후 몇 년 동안의 질문에는 합성 데이터가 얼마나 충실해야 하는지(또는 합성 데이터 세트가 실제 데이터 세트와 얼마나 유사한지)가 포함될 것이다. 이에 대한 답을 얻기 전에 충실도를 측정하고 정량화하는 방법을 설계해야 한다.

그러면 합성 데이터 사용자는 개인 정보를 보호하면서 충실도를 최대화하려고 한다. 합성 데이터가 실제 데이터와 너무 유사하면 의료 기록이나 금융 거래와 같은 민감한 정보가 유출될 수 있다. 건강 보험 회사인 앤썸(Anthem)은 구글 클라우드(Google Cloud)와 협력하여 합성 환자 의료 데이터를 생성해 지금까지 의료 분야에서 AI 및 데이터 분석 배포를 가로막았던 데이터 개인 정보 보호 문제를 해결했다.

합성 데이터는 양질의 훈련 데이터를 보다 쉽게 액세스할 수 있고 저렴하게 만들 수 있으므로 합성 데이터의 가치는 종종 상당한 처리가 필요한, 지저분한 실제 데이터의 가치를 능가할 수 있다. 합성 데이터가 수집, 소유 및 수익화하는 거대한 데이터 세트에서 많은 이익을 얻는 구글, 메타(Meta), 아마존(Amazon)과 같은 기업에 실존적 위협이 될 것 같지는 않지만 합성 데이터에 대한 열망은 현실이다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]임의의 합성 데이터가 AI 성능 높이는 이유

[관련기사]엔비디아, 100,000개 뇌 이미지 데이터베이스 무료 공개