임의의 합성 데이터가 AI 성능 높이는 이유

실제 데이터 수집 어려운 경우 합성 데이터가 유용
활용도 높아지면서 실제 데이터 더 많이 쓰일 전망
데이터 생성 기술, 투명성 등에 의문 제기 되기도

현실에서 실제 생성되고 수집된 데이터가 아니라 시뮬레이션이나 통계 등으로부터 생성된 합성 데이터의 유용성이 점차 커질 전망이다. 29일 미 IT 매체 벤처비트에 따르면 합성 데이터의 활용이 늘면서 실제 데이터의 사용을 넘어설 것으로 전망됐다.

시장조사회사인 가트너의 예측에 따르면 2024년까지 AI 및 분석 프로젝트 개발에 사용되는 데이터의 60%가 합성으로 생성될 전망이다. 가트너는 고품질, 고가치 AI 모델이 합성 데이터를 사용하지 않고는 불가능하다며 2030년까지 AI 모델에서 합성 데이터 활용이 실제 데이터를 추월할 것이라고 예상했다.

시장조사 기관 커그닐리티카에 따르면 합성 데이터 생성 시장은 2021년에 약 1억1000만 달러(1422억 원)였고 2027년까지 11억5000만 달러(약 1조5000억 원)에 달할 전망이다. 그랜드 뷰 리서치는 2030년까지 AI 학습 데이터 세트 시장이 86억 달러(약 11조1000억 원) 이상에 달할 것으로 예상하면서 연평균 복합 성장률(CAGR)이 22%를 약간 넘을 것으로 분석했다.

데이터는 세상에서 가장 가치 있는 상품이 될 정도로 중요하다. 인공지능(AI) 및 머신러닝(ML) 모델 학습의 경우 반드시 필요하다. 그러나 다양한 요인으로 고품질의 실제 데이터를 수집하기가 어려울 수 있고, 때로는 불가능할 수도 있다. 이러한 경우 합성 데이터가 매우 유용하다.

합성 데이터는 수학적이고 통계적으로 실제 데이터를 반영하지만 컴퓨터 시뮬레이션, 알고리즘, 통계 모델링, 간단한 규칙 및 기타 기법을 통해 디지털 세상에서 생성된다. 이는 실제 출처, 시나리오 및 실험을 기반으로 수집, 컴파일, 주석 처리 및 레이블이 지정된 데이터와는 반대라고 할 수 있다.

합성 데이터의 개념은 1990년대 초 하버드대 통계학 교수인 도널드 루빈이 원천 데이터세트의 응답과 동일한 익명의 미국 설문 응답을 생성하면서(자택 주소, 전화 번호 또는 사회 보장 번호로 응답자를 식별하지 않음) 생겨났다.

합성 데이터는 2000년대에 들어서 특히 자율주행 자동차의 개발 과정에서 더 널리 사용됐다, 현재는 수많은 AI 및 ML 활용 사례에 합성 데이터가 점점 더 많이 적용되고 있다. 실제 데이터는 거의 항상 AI 및 ML 모델에서 최고의 통찰력을 제공한다. 하지만 개인정보 보호 규정 및 제약으로 사용할 수 없거나 균형이 맞지 않고 비용이 많이 드는 경우가 많다. 편견을 통해 오류가 발생할 수도 있다.

가트너는 2022년까지 AI 프로젝트의 85%가 잘못된 결과를 제공할 것으로 예상했다. 가트너의 애널리스트 알렉산더 린덴 부사장은 회사 Q&A 행사에서 “실제 데이터는 우연이고 현실에서 가능한 모든 상황이나 사건을 교환하는 것을 포함하지 않는다”고 밝혔다.

합성 데이터는 이러한 많은 문제에 대응할 수 있다. 전문가와 실무자들에 따르면 더 빠르고 쉽게, 비용을 적게 들여 만들 수 있고 정리와 유지보수가 필요하지 않은 경우가 많다. 민감하고 규제가 이뤄지는 데이터를 사용하는 데 따른 제약을 제거하거나 줄여주고, 극한 상황을 고려할 수 있으며, 이뤄질 수 없거나 아직 발생하지 않은 특정 조건에 맞게 조정할 수 있고, 보다 신속한 통찰력을 제공할 수 있다. 또 학습에서 특히 실제 데이터를 사용, 공유 또는 이동할 수 없을 때 덜 번거롭고 훨씬 효과적이다.

린덴 부사장은 어떤 경우에 AI 모델에 주입되는 정보가 직접적인 관찰보다 더 가치 있는 것으로 입증될 수 있다고 밝혔다. 마찬가지로 일부는 합성 데이터가 실제보다 더 낫다면서 혁명적이라고까지 주장한다.

기업은 소프트웨어 테스트, 마케팅, 디지털 트윈 제작, AI 시스템 편향 테스트, 미래 시뮬레이션, 대체 미래 또는 메타버스 등 다양한 활용 사례에 합성 데이터를 적용하고 있다. 린덴은 은행과 금융 기관이 합성 데이터를 사용해 시장 행동을 파악하고, 대출 결정을 개선하며, 금융 사기를 근절하고 있다고 설명했다. 소매업체들은 자동 결제 시스템, 무인 매장 및 고객 인구 통계 분석을 수행하고 있다.

그는 “합성 데이터를 실제 데이터와 결합하면 실제 데이터의 약점을 완화할 수 있는 향상된 데이터 집합이 만들어진다”며 “합성 데이터에도 위험과 한계가 있는 가운데 만든 모델에 따라 품질이 달라지고, 오해의 소지나 좋지 않은 결과가 나올 수 있으며 개인정보 보호 측면에서 100% 안전할 수 없다”고 설명했다. ‘가짜 데이터’ 또는 ‘하위 데이터’라고 부르기도 한다. 합성 데이터가 널리 적용되면서 비즈니스 리더들은 데이터 생성 기술, 투명성 및 설명 능력에 대해 의문을 제기할 수 있다.

린덴은 “적용 범위가 넓기 때문에 AI의 활용에 속도를 높이는 역할을 하게 될 것”이라며 “합성 데이터를 사용하면 편향으로 인한, 또는 드물거나 전례 없는 시나리오를 인식하지 못하면서 데이터가 부족해 AI를 쓸 수 없는 경우에도 AI 활용이 가능해진다”고 설명했다.

시장이 커지면서 경쟁자들도 성장하고 있다. 점점 더 많은 스타트업이 합성 데이터 시장에 진입해 투자를 받고 있다. 최근 5000만 달러(646억 원) 시리즈 B를 마감한 데이터젠(Datagen) 및 그레텔.ai(Gretel.ai), 2500만 달러(323억원) 시리즈 B의 모스틸(MostlyAI), 1700만 달러(160억 원) 시리즈 A의 신서시스 AI(Synthesis AI) 등이다.

이 분야의 다른 기업으로는 스카이 엔진(Sky Engine), 원뷰(OneView), 크베디아(Cvedia), 선도적 데이터 엔지니어링 회사 이노데이터(Innodata)가 있다. 이노데이터는 최근 고객들이 주문형 합성 데이터 세트를 구매하고 모델을 즉시 학습하고 다양한 오픈 소스 도구를 사용할 수 있는 전자상거래 포털을 개설했다.

구글, 마이크로소프트, 페이스북, IBM, 엔비디아는 이미 합성 데이터를 사용하고 있거나 엔진과 프로그램을 개발하고 있다.

아마존은 합성 데이터로 알렉사(Alexa) 가상 도우미를 생성하고 세부 조정해 왔다. 또 WorldForge를 제공해 합성 장면을 생성할 수 있게 했으며 지난주 re:MARS(머신러닝, 자동화, 로보틱스 및 우주) 컨퍼런스에서 SageMaker Ground Truth 도구를 사용해 레이블 합성 이미지 데이터를 생성할 수 있다고 발표했다.

AWS(아마존웹서비스)의 AI 및 ML 선임 개발자 안제 바트는 “실제 데이터를 합성 데이터와 결합하면 ML 모델 학습에 필요한 보다 완전한 학습 데이터 집합을 만들 수 있다”고 밝혔다.

AI타임스 이한선 객원 기자 griffin12@gmail.com

합성 데이터로 AI 편향 해결하는 스타트업

AI 학습에 데이터 세트 없어도 되나?...MIT, 합성 데이터 생성 모델 개발

민감 정보 대체하는 '합성데이터'가 뜬다...의료 분야에서 활용 시도

이한선 객원 기자 griffin12@gmail.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기