딥러닝으로 예측 모델의 정확성을 높일 수는 있지만 이를 위해서는 큰 데이터가 필요하다는 것이 단점이다. 딥러닝은 클래식 회귀 알고리즘이나 그래디언트 부스트 트리 및 지원 벡터 머신 같은 머신러닝을 활용한다. 이미지 데이터에 주로 사용하는 컨볼루션 뉴럴 네트워크 또는 언어나 텍스트 데이터 주로 사용하는 반복 뉴럴 네트워크 등이다. 이같은 방식으로 높은 정확도를 구하려면 훨씬 더 많은 데이터가 필요하고 더 많은 컴퓨팅 능력을 필요로 한다. 한마디로 비용이 많이 든다.

그러나, 약간의 기술만 있으면 작은 데이터로도 딥러닝을 수행할 수 있다. 실리콘밸리 벤처기업 무브웍스(Movework)가 기존 기계학습 방식에 비해 훨씬 정확하고 정밀한 딥러닝 모델을 개발했다. 바이바브 니바기(Vaibhav Nivargi) 무브웍스의 CTO이자 공동 설립자는 이 3가지 기술로 데이터를 매우 높은 볼륨으로 구체적으로 증폭 할 수 있다고 말했다.

(사진=셔터스톡)
(사진=셔터스톡)

1. 전이 학습(Transfer Learning) 
전이학습은 좀 더 친숙한 솔루션으로 만들어 낼 데이터가 없을 때 가장 기본적으로 접근할 수 있는 강력한 딥러닝 접근법이다. 가장 기본적인 수준에서는 복사 및 붙여넣기를 하면 된다. 
이미 개발 된 딥 러닝 모델을 복사하지만 최종 예측을 개발하는 마지막 레이어에 사용자 지정 코드를 붙여 넣는다. 배운 것을 최대한 활용하고 마지막 몇 단계 만 변경하면 된다.

2. 집단 학습(Collective Learning)
집단 학습은 기존 부족한(밀도가 희박한) 데이터를 증폭해 실제 와 가까운 새로운 데이터를 생성하는 기술이다. 컴퓨터 비전 영역에서는 이미지를 회전시키거나 측면을 잘라내는 등 작업을 거치면 데이터는 3~4배로 늘어난다. 
언어 영역은 더 까다롭다. 단어의 끝을 잘라내거나 임의의 단어와 문장 부호를 추가 할 수 없기 때문이다. 그러나 지식이 풍부한 의사가 충분히 주의를 기울이면 집단학습 방법은 기존 데이터 세트를 키우고 반복적인 신경망에 더 많은 단어 모음을 제공할 수 있다.

3. 메타 학습(Meta Learning)
n- 샷 또는 멀티 샷 학습이라고도 한다. 또 다른 강력한 데이터 부스팅 기술이다. N 차원의 데이터를 가져와 수백 개의 차원을 더 추가할 수 있다. 매트릭을 발행하려면 대시보드에 접근권이 필요 하다는 IT 티켓이 있다고 가정해보면 구어체 영어에서는 완전히 유효하고 의미가 통하지만, 여기서는 불완전한데 그 이유는 어떤 대시보드인지 알 수 없기 때문이다. 빈 칸을 채우고 직원이 의미하는 바를 더 잘 이해하기 위해 진술에 문맥이 적용되는 메타 학습 접근법을 사용한다. 이 접근법은 사용자가 의미하는 바를 추측하기 위해 가용 메타데이터를 사용한다. 예를들어, 직원이 어떤 부서에서 근무하는지, 또는 하루 중 어느 시간에 근무하는지를 말해보면마케팅에 종사하는 직원이면 판매원 대시보드에 대해 이야기하고 있을 가능성이 크고 공학계통에 종사하고 있다면 지라 대시보드에 대해 이야기하고 있을 가능성이 충분히 있다.

트랜스퍼 학습은 강력한 기반에서 시작해서 자신의 영역에 적응할 수 있는 부트스트랩 현상을 가지고 있다. 집적 학습은 네트워크 효과를, 메타 학습은 N차원에서 데이터를 가져와 수백차원을 더 추가할 수 있다. 그래서 이 모든 것들은 점증적으로 데이터를 증대한다.

키워드 관련기사
  • AI로 디지털 트랜스포메이션 성공률 높이는 7가지 방법