진짜보다 나은 ‘가짜’ 데이터로 AI에 연료 공급

AI 소프트웨어를 이용해 합성 데이터 생성
가능한 모든 시나리오에 대한 데이터 제공
가능한 모든 변수를 데이터 세트에 추가
모든 성별과 인종에 안전하고 공평한 적용

AI가 딥러닝을 통해 합성한 얼굴사진을 직접 만들고 구입할 수 있다.(사진=Generated Photo)

합성 데이터를 통해 기업은 기존 AI 데이터의 한계에서 벗어날 수 있다. 인간이 수집한 데이터와 함께 합성 데이터를 사용하면 데이터 및 노동 비용 절감, 데이터 수집 속도 향상, 엣지 케이스에 대한 액세스, 보다 포괄적이고 편향되지 않은 데이터 세트를 포함하여 기업에 상당한 이점을 제공할 수 있다.

기술매체 패스트 컴퍼니(Fast Company)가 보도했듯이 인공지능(AI)은 모든 산업 분야의 조직을 위해 운영을 혁신하고 워크로드를 최적화하면서 그 가치를 계속해서 보여주고 있다. 더 많은 산업이 AI의 힘을 활용하려고 함에 따라 우리는 이 기술을 훈련하는 데 사용하는 데이터에 더욱 민감해야 한다. 그렇지 않으면 흑인, 원주민, 유색인종에 대한 본질적인 편견과 관련하여 최근 사회가 이룩한 모든 진보에 역행할 위험이 있다.

합성 데이터의 부상

기업은 AI를 사용해 미개척 영역으로 나아가고 있다. 인간이 AI 시스템에 학습할 데이터를 제공하고 시행착오 과정을 검증하는 HITL(Human-In-The-Loop) 데이터 훈련은 많은 시간이 소요될 수 있지만, 데이터가 없는 경우는 어떨까? AI 모델이 아직 스스로 할 수 있는 도구나 데이터가 없는 일을 하도록 어떻게 가르칠 수 있을까?

원래 개발자는 AI 모델을 정확하게 훈련하기 위해 가능한 모든 시나리오를 다루는 훈련 데이터를 얻어야 했다. 시나리오가 이전에 발생하지 않았거나 캡처된 경우 데이터가 없기 때문에 특정 시나리오를 이해하는 기계의 능력에 큰 격차가 생겼다.

발생하는 실제 시나리오가 있지만 종종 이를 인식하도록 기계를 훈련시키는 데 필요한 데이터가 충분하지 않다. 예를 들어 가정 침입자를 인식하도록 경보 시스템을 훈련하는 데 필요한 데이터가 충분하지 않다. 또 다른 예는 자동차 앞에서 뛰쳐나가는 어린이를 인식하도록 자율주행 차량을 훈련시키는 것이다. 극단적이기는 하지만 이는 HITL 데이터만으로 기계를 인식하고 반응하도록 훈련할 수 없는 실제 시나리오다.

합성 이미지는 자율주행차 알고리즘 훈련에 사용된다.(사진=Parallel Domain)

합성 데이터란 무엇인가?

합성 데이터는 실제 시나리오에서 사람이 캡처한 데이터와 달리 소프트웨어에 의해 생성된다. 이를 통해 컴퓨터 프로그램은 일반적인 사람이 수집한 데이터가 나타낼 수 없는 드문 사례와 특정한 실제 시나리오를 조정해 사용 사례의 격차를 메울 수 있다. 이를 엣지 케이스(edge case)라고 한다. 이것은 또한 보다 정교한 AI 애플리케이션을 훈련할 때 더 많은 유연성을 허용한다.

엣지 케이스는 AI가 처리할 준비가 되어 있지 않을 수 있는 극단적이고 악몽 같은 시나리오다. 예를 들어 재난이나 범죄는 모두 데이터 수집이 어려운 시나리오다. 위험 없이 시뮬레이션할 수 있지만 합성 데이터를 실제 데이터와 함께 사용해 격차를 줄이고 가능한 모든 시나리오에 대해 총체적이고 포괄적인 데이터 세트를 보장해야 한다.

2024년까지 전체 AI 데이터의 60%가 합성 데이터가 될 것으로 예상된다. 종합적으로 생성된 합성 데이터에 대한 아이디어는 꽤 오래전부터 존재했지만 최근 성장은 대부분 자율주행차 산업에 기인한다. 그러나 드론, 보안 카메라 및 다양한 소비자 전자 제품과 같이 프로그램을 활용하는 거의 모든 컴퓨터 비전에 적용할 수 있다.

인간이 없다는 것은 인간의 편견이 없다는 것을 의미한다

편견은 사회에서 항상 존재하는 것처럼 AI 데이터 세트에도 있다. 이러한 데이터 세트는 사람이 선별하기 때문에 데이터를 생성하는 사람과 동일한 편향을 보이는 경우가 많다. 이것들은 거대하고 명백한 편견이 아니지만 성별과 인종을 기반으로 응용 프로그램을 왜곡하기에 충분하다. 예를 들어 자율 주행 자동차는 흑인보다 백인 보행자를 더 잘 인식할 가능성이 높기 때문에 안전 문제가 발생할 수 있다.

합성 데이터가 차별화되는 점은 사람이 만든 것이 아니라는 것이다. 소프트웨어가 AI를 위해 생성한 데이터다. 그리고 원본 데이터 세트로부터 편향을 상속할 수도 있지만 편향이 있더라도 훨씬 더 적을 수 있다.

데이터 세트가 진정으로 포괄적이려면 가능한 모든 시나리오와 이를 사용할 수 있는 사람을 포함해야 한다. 예를 들어 휴대폰의 얼굴 인식은 모든 사람이 사용할 수 있어야 하므로 피부색, 머리색, 머리 유형, 다양한 얼굴 특징, 안경이나 선글라스와 같은 액세서리 등을 식별하도록 훈련되어야 한다.

이러한 모든 변수는 포괄성을 보장하기 위해 훈련 데이터 세트에 추가되어야 한다. 더 구체적으로 말하면, 안경을 쓴 사람들에 대한 데이터가 없다는 것을 안다면 인공적으로 데이터를 생성해 안경을 쓴 사람들에게 모델이 작동하도록 할 수 있다.

또한 자율 주행 차량은 다양한 유형의 도로, 다양한 도로 표지판, 다양한 극한 경험 및 기타 장애물을 포함한 모든 도로 상황에 대해 훈련을 받아야 한다. 모든 사람을 안전하게 하기 위해 모델이 인식할 수 있어야 하는, 예측할 수 없거나 드물게 발생하는 시나리오가 종종 있다.

사다리가 차량 앞에서 떨어지는 경우 차량은 물체를 식별하고 피하면서 이동해야 한다. 이러한 시나리오는 우리가 모델을 적절하게 훈련시키기에 충분한 데이터를 가질 만큼 현실 세계에서 충분히 발생하지 않지만 합성 데이터를 사용해 인위적으로 생성할 수 있다.

합성 데이터의 인기가 높아지면서 AI의 미래도 밝아진다. 점점 더 많은 회사가 사람이 수집한 데이터 세트를 보완하기 위해 합성 데이터를 채택함에 따라 모든 성별과 인종에 대해 더 안전하고 공평한 적용으로 이어질 훨씬 더 포괄적이고 대표적인 데이터 세트를 기대할 수 있게 됐다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]“미래는 가짜다”…AI 모델 훈련에서 합성데이터의 부상

[관련기사]임의의 합성 데이터가 AI 성능 높이는 이유