요슈아 벤지오, 얀 르쿤, 제프리 힌튼과 더불어 세계 4대 AI 석학으로 꼽히는 앤드류 응 스탠퍼드 교수가 데이터 품질 개선을 위한 캠페인을 실시한다. 그가 설립한 스타트업 ‘랜딩AI(Landing.AI)’는 지난 16일(이하 현지시간) 고정모델에서 최고의 성능을 발휘하는 경연대회를 열 계획을 알렸다. 랜딩AI는 또 2012년 응 교수가 공동설립한 교육강의 플랫폼 코세라(Coursea)에서 전 세계 참가자들에게 데이터 중심 접근 방식을 가르치기 위해 온라인 강좌를 개설하고 있는 것으로 알려졌다.
데이터는 AI의 먹거리다
-앤드류 응
경연 참가 가이드라인이 올라온 코다랩을 살펴보면 참가자들은 ▲잘못된 레이블 수정 ▲엣지 케이스를 나타내는 예제 추가 ▲데이터 확대 적용 등과 같은 데이터 중심 기술을 적용해 개선 가능한 데이터셋을 발굴한다. 참가자들은 오는 9월 4일까지 변경된 데이터셋을 제출하고 랜딩AI는 두 가지 부문에서 상위 수상자 3명을 선발한다. 이렇게 뽑힌 수상자들은 응 교수가 함께하는 비공개 이벤트에 초대돼 데이터 중심의 필요성을 대외적으로 알리는 방안을 모색하게 된다.
코다랩은 9월 4일로 제출 마감 날짜를 정한 배경에 대해 “인공지능의 아버지라고 불리는 존 매카시 생일이기 때문”이라고 밝혔다.
앤드류 응 교수가 이 캠페인을 통한 궁극적 목표는 “수집할 수 있는 모든 데이터를 수집한 다음 데이터 노이즈를 처리해 마침내 좋은 모델을 개발하는 것”이다. 원하는 결과를 얻을 때까지 반복적으로 모델을 수정해야 ‘흠 없는’ 데이터 기반 AI 모델이 탄생한다.
응 교수는 지난 3월 온라인 AI 강좌 플랫폼 ‘딥러닝AI’가 개최한 온라인 Q&A 시간 동안 줄곧 ‘데이터 일관성’을 강조하며 “올바른 결과를 얻으려면 모델이나 코드를 고정 상태로 유지하고, 데이터 품질을 반복적으로 개선해야 한다”고 역설했다.
'모델 중심에서 데이터 중심으로'라는 주제로 온라인 Q&A 시간을 갖은 앤드류 응 스탠퍼드 교수. (출처=DeepLeaning AI 공식 유튜브 채널).
이번 캠페인 시작을 알리면서 포브스와 가진 인터뷰에서도 응 교수는 “훌륭한 AI 모델의 기반은 데이터 뿐”임을 강조했다. 그는 2000년대 후반 AI 시장이 급부상하면서 “현재 다양한 애플리케이션 모델과 이를 위한 코딩은 어느 정도 궤도에 오른 상태”라고 평가했다. “올바른 품질의 데이터를 중심으로 AI가 발전하는 모습”이라고 덧붙였다.
그러나 점점 수많은 기업에서 AI를 채택하는 사례가 늘어나면서 폭발적인 수요를 감당하지 못하는 경우도 발생한다. 응 교수는 효율성을 강조하며 수백만 개가 아닌 단 1만개 이하 예제로 훈련될 가능성을 지적하면서 “바로 이 점이 데이터 품질에 더 많은 주의를 기울여야 하는 중요한 이유”라고 말했다. AI를 모델 중심이 아닌 데이터 중심으로 접근해야 한다는 점을 다시 한 번 주장한 것이다.
시장조사기관 ‘비즈니스 와이어’가 최근 발표한 설문조사에 따르면 AI를 도입한 3개 기업 중 1개는 머신러닝 모델을 정기적으로 재훈련하거나 모니터링 하지 않는 것으로 나타났다. 또 전체 응답자 중 67%는 “AI모델이 너무 많은 데이터를 보유하고 있어 AI 프로젝트 성공을 방해한다”고 답했다. 이들은 이를 해결하는 방법으로 “현실에 입각해 AI 활용 사례를 스케일링하는 전략을 수립해 실행하는 것이 AI 솔루션으로 가는 가장 빠른 길”이라고 믿었다.
이처럼 데이터 중요성에 대해 기업인이나 개발자 사이에 의견이 분분하다. 응 교수는 “데이터만큼 AI 성공에 기본이 되는 것은 없다”는 확고한 생각이다. 때문에 최근 코세라에 ML옵스 강의를 신설하는 등 데이터 중심으로 접근하는 내용을 다양한 방법으로 알리고 있다.
이번 캠페인에 대해서도 응 교수는 “10년 전 딥러닝의 부상이 수많은 신규 일자리를 낳았듯 데이터 중심 AI 개발이 다양한 산업분야에서 수많은 신규 일자리를 창출하길 바란다”고 말했다.
AI타임스 박혜섭 기자 phs@aitimes.com
