가트너“10년내에 기업 대부분, 합성데이터로 바꿔”
실제 데이터 수집에 드는 비용, 합성데이터로 해결
합성데이터로 개인정보 보호 문제 최소화도 가능해

출처=셔터스톡

고도화된 인공지능의 구현에 대량의 데이터 확보는 필수적이다. 하지만 비용, 기술적 측면, 개인 정보 보호 등은 기업의 데이터 확보의 걸림돌이다. 이에 대안으로 떠오른 것이 바로 합성(가상) 데이터다.

하지만 전문가들은 합성데이터가 ML 모델 개발 등 여러 가지 측면에서 기업에 도움을 주지만 완벽한 것은 아니라고 강조한다.

사이버 보안 전문가 ‘시어도어 클레이풀(Theodore Claypoole, Ted)은 대서양 횡단 로펌 ‘웜블 본드 디킨슨(Womble Bond Dickinson)’의 지적 재산권 실무 그룹 팀장이다.

지난 28일 테드 팀장은 미국의 법률 저널 ‘내셔널 로 리뷰(National Law Review)’에 “AI, 개인 정보 보호에 대한 해결책이 될 수 있는 합성데이터”란 제하의 칼럼을 기고했다.

테드 팀장은 “기업이 원하는 작업을 수행하기 위해 머신러닝 도구를 교육하고, 테스트하기 위해 엄청난 양의 데이터가 필요하지만 이렇게 많은 데이터, 특히 사람들의 행동과 거래에 관한 데이터를 수집하는 것은 위험할 수 있다”고 강조했다.

그 사례로, 올해 1월 미국 공정위가 사진 앱 개발업체인 에버앨범(Ever album)에 내린 동의명령을 꼽았다. 미 공정위는 에버앨범이 AI 학습 데이터베이스로 사용될 얼굴 인식 데이터를 수집하고 보관하는 데 있어 속임수를 쓰는 불공정 행위를 저질렀다고 판단했다.

공정위는 에버앨범에 데이터베이스의 사진을 삭제하도록 강요했을 뿐만 아니라 해당 데이터베이스에 대해 훈련된 AI 프로그램 사용을 중단하도록 강요했다는 것이다.

“그렇다면, 데이터 주체의 프라이버시를 위태롭게 하지 않으면서 개인 결과 및 트랜잭션에 대한 데이터셋을 AI에게 제공할 수 있을까요?”

이 질문에 테드 팀장은 “실제 거래에서 학습한 교육 데이터가 반드시 필요한 것은 아니다.”며, “가짜 거래도 잘 될 수 있는데 가트너(Gatner)는 최근 10년 이내에 AI 교육에 사용되는 대부분 데이터가 인공적으로 생성될 것으로 전망했다”라고 주장했다.

그는 또 컴퓨터 그래픽 장치 개발기업인 엔비디아(NVIDIA)를 예로 들면서 “합성 데이터셋은 자동으로 레이블이 지정되고, 드물지만 중요한 코너 사례를 의도적으로 포함할 수 있어서 실제 데이터보다 더 나은 경우도 있다”고 언급했다.

뿐만 아니라, 유사 캡처 데이터를 구입하는 것보다 훨씬 저렴하고, 구조화되지 않은 데이터의 수동 레이블 지정은 시간과 비용이 많이 든다는 주장이다.

반면에 합성데이터는 생성 시, 사전 레이블을 지정해 상당한 자원을 절약할 수 있고, 잘 설계된 합성 데이터셋 생성 알고리즘은 지속적으로 데이터를 생성할 수 있으며, 데이터셋 자체는 AI 교육 및 테스트에 여러 번 재사용될 수 있다고 강조했다.

개인정보보호 문제의 경우, 의료 분야에선 합성데이터가 머신러닝 시스템 교육에 훨씬 더 유용한 것으로 전해지고 있다.

테드 팀장은 “지금은 개발의 초기 단계지만, 합성데이터가 미래 기업에 대한 지배적인 가치 원천이 될 가능성을 갖고 있다”고 전망했다.

합성데이터로 ML 모델 빠르게 개발

지난해 9월 14일 AI 전문가 대니얼 넬슨(Daniel Nelson)은 AI 전문매체 유나이트AI(Unite·AI)에 게재된 기고에서 “합성데이터가 무엇인가?”란 질문에 “합성데이터는 실제의 현상이나 사건에 근거하지 않고, 컴퓨터 프로그램을 통해 생성되는 데이터다”고 설명했다.

넬슨에 따르면, 합성데이터가 머신러닝 학습 분류기에 사용되려면, 특정 속성을 갖고, 데이터는 임의로 생성돼야 하지만, 데이터를 생성하는 데 사용되는 랜덤 프로세스는 다양한 통계 분포를 기반으로 제어할 수 있어야 한다는 것이다.

그는 합성데이터를 사용하는 이유에 대해 “텐서플로우(TensorFlow) 등과 같은 오픈 라이브러리의 접근이 쉬워지면서 기업이 주어진 기간 내에 대량의 데이터를 획득하는 것이 더 어려워지고 있다”고 설명했다.

아울러 수기 레이블링 데이터의 경우, 데이터 수집에 비용이 많이 들고 느린 편이지만, 합성데이터는 데이터 과학자와 기업에 이러한 장애물을 극복하게 해주며, 머신러닝학습 모델을 보다 신속하게 개발할 수 있게 만든다는 주장이다.

넬슨은 “장점이 많은 합성데이터는 실존하는 데이터셋보다 훨씬 빠르게 데이터를 만들고, 데이터셋을 구성할 수 있다”고 강조했다.

아울러, 합성데이터는 개인 정보 보호 문제도 최소화할 수 있는데 애초에 실제 인물이나 사건에 근거한 데이터가 아니므로 문제가 되지 않기 때문이라는 설명이다.

장점 많지만 완벽한 해결책 아니야

“대부분의 AI 프로젝트에서는 데이터가 이슈다. 나 역시 좋은 자료가 부족해서 프로젝트를 몇 번 실패한 적이 있다. 그 이후로, 나도 합성데이터에 훨씬 더 의존하게 됐다”

지난 2019년 10월 22일 알렉산드르 곤팔로니에리(Alexandre Gonfalonieri)는 투워드즈 데이터 사이언스(Towards Data Science)와의 대담에서 합성데이터에 대한 소신을 밝혔다.

곤팔로니에리는 스위스에 소재한 스타트업 ‘DNA 글로벌 애널리틱스(DNA Global Analytics)’의 대표다. 이 회사는 유통업계에 적용된 인공지능과 블록체인 기술을 전문으로 개발하고 있다.

“구글, 애플, 아마존 등과 같은 거대 기술 회사들에 데이터 수집은 문제가 덜하다. 실제로 이들은 제품/서비스를 통해 다양한 데이터 스트림을 거의 무제한으로 공급하고 있어, 데이터 과학자들이 알고리즘을 교육할 수 있는 완벽한 생태계를 조성하고 있다”고 곤팔로니에리 대표는 말했다.

반면에 소규모 기업의 경우, 이러한 데이터셋에 대한 액세스가 제한되거나, 비용이 많이 들거나, 아예 존재하지 않는다는 주장을 펼쳤다.

아울러, AI의 데이터 수집은 물론 치열한 경쟁에도 맞서야 하고, 가뜩이나 데이터 취득 비용이 많이 들어서 많은 기업은 시작조차 하지 못하는 것이 현실이라고 덧붙였다.

그러나 그는 “합성데이터는 이러한 상황을 변화시킬 수 있는 강점이 있는데 이는 기업과 연구자가 머신러닝 모델을 교육하고, 사전 교육하는 데 필요한 데이터 저장소를 구축하는 데 도움이 되기 때문”이라고 말했다.

합성데이터 기술은 AI의 데이터 문제 해결에 도움을 줌으로써, 단순히 기존 사업 라인을 최적화하지 않고, 새로운 제품 카테고리를 창출하고, 새로운 시장을 개척할 수 있는 잠재력이 있기 때문이라는 주장이다.

그럼에도 불구하고, 그는 “합성데이터가 항상 완벽한 해결책은 아니다”고 지적했다.

일반적으로 합성데이터는 머신러닝 사용 사례에 적합하지 않으며, 합성데이터를 사용하면, 개발 단계에서 의도된 데이터를 사용해 ML 모델이 제품 생산 시에 어떤 성능을 발휘할지, 오해가 발생할 수 있다는 것이다.

그는 이 문제의 당면 과제에 대해 “특정 포장 확인 등과 같은 간단한 작업에 비해서 수백 종의 희귀 동물 탐지와 같은 작업은 여전히 어렵다.”며, “이를 위해 합성데이터의 정확성을 보장해야 한다”고 지적했다.

AI타임스 조행만 객원 기자 chohang5@kakao.com 

[관련 기사]민감 정보 대체하는 '합성데이터'가 뜬다...의료 분야에서 활용 시도

[관련 기사][분석] 이루다 사건, 문제는 AI모델과 데이터 정제...GPT-3에서 예견된 사태

키워드 관련기사
  • ICML2021 선정 가장 우수한 머신러닝 논문 TOP 5
  • 구글, 음성번역 기술 ‘트랜스레이토트론2’ 새 버전 공개...딥페이크 차단 구조 보완
  • 고용노동부 'K-Digital Training 해커톤' 1·2위 휩쓸어 주목받는 AI혁신학교 ‘아이펠’