AI 성능 향상에 데이터가 차지하는 비중 높아
위세아이텍 "데이터 수집·관리가 AI 성능 좌우"
에이모 "고품질 데이터 빠른 라벨링이 경쟁력"
크라우드웍스 "크라우드소싱으로 라벨링 지원"

AI 성능 향상에 데이터 수집과 가공 역할이 중요하다는 의견이 제기됐다. (사진=셔터스톡)
AI 성능 향상에 데이터 수집과 가공 역할이 중요하다는 의견이 제기됐다. (사진=셔터스톡)

"인공지능(AI)은 모델 중심이 아닌 데이터 중심으로 발전해나갈 것이다." 세계적인 AI 전문가라 불리는 앤드류 응 랜딩AI 최고경영자(CEO)의 말이다. AI 발전에는 모델 성능보단 데이터가 차지하는 비중이 더 크다는 의미를 담고 있다.

앤드류 응 CEO는 얀 르쿤 페이스북 수석 AI 과학자, 요수아 벤지오 몬트리올대 교수, 제프리 힌튼 토론토대 교수와 함께 'AI 4대 천왕'이라 불린다. 2011년 구글의 AI 연구 조직인 구글 브레인을 설립해 천만 개가 넘는 비디오에서 고양이를 식별하는 데 성공하며 딥러닝을 본격적으로 세상에 알렸다. 현재 랜딩AI CEO이자 코세라 공동 회장, 스탠퍼드대 교수로 근무하고 있다.

앤드류 응 CEO는 꾸준히 '데이터 중심 AI'를 강조해왔다. 제대로 된 데이터가 성능이 좋은 AI 모델보다 중요하다는 것이 그의 철학이다. 그는 "성능 좋은 AI 칩으로 만든 AI 모델이 반드시 AI 성능과 이어지지 않는다"며 "앞으로 10년은 소수의 제대로 된 데이터가 AI 발전을 이끌어 갈 것"이라고 말했다. 또 "지난 10년 동안 AI는 빅데이터에 집중돼 왔다"며 “빅데이터에 대한 관심이 스몰데이터(작은 데이터)로 확장된다면 더 많은 AI 애플리케이션이 가능해질 것"이라고 말했다.

데이터는 AI 분야에서 계속 강조돼온 문제다. AI는 그동안 데이터를 전제로 개발돼왔다. AI 성능은 데이터에 달려있다고 봐도 무방하다. 13일 서울 코엑스에서 개막한 'AI 엑스포 코리아 2022'에서도 AI 산업에서 데이터가 얼마나 중요한 역할을 하는지가 그대로 나타났다. 

위세아이텍 "AI 도입엔 데이터 구축과 관리"

권지수 위세아이텍 팀장은 전시회에서 <AI타임스>와 만나 데이터가 AI 성능을 좌우할 수 있다고 밝혔다. 권 팀장은 "AI를 도입하기 위해선 어떤 데이터를 어떻게 관리하고 있는지가 중요하다"고 말했다. 이어 "고객사를 만나다 보면 학습할 수 없는 형태로 데이터가 구축되어 있는 경우가 많다"며 "이러한 문제를 해결하기 위해 위세아이텍은 데이터 형태와 저장 등을 직접 컨설팅하고 있다"고 덧붙였다.

위세아이텍은 국내에서 처음으로 빅데이터 분석 도구를 선보인 기업이다. 2000년 빅데이터 다차원 분석 도구 '와이즈인텔리전스(WiseIntelligence)'를 출시했다. 대규모 데이터를 다양한 관점으로 분석해 비즈니스 인사이트를 도출할 수 있는 소프트웨어(SW)다.

위세아이텍은 대규모 데이터를 다양한 관점으로 분석해 비즈니스 인사이트를 도출할 수 있는 SW 등 다양한 도구를 제공하고 있다. (사진=김동원 기자)
위세아이텍은 대규모 데이터를 다양한 관점으로 분석해 비즈니스 인사이트를 도출할 수 있는 SW 등 다양한 도구를 제공하고 있다. (사진=김동원 기자)

2008년에는 빅데이터 품질관리 도구 '와이즈DQ(WiseDQ)'를 선보였다. 사용자가 데이터 적시에 사용할 수 있도록 데이터품질을 진단하고 개선하는 데이터품질관리 SW다. 이 도구는 제1금융권 시장에서 62.5% 이상 점유율로 사용되고 있다.

에이모 "고품질 데이터 확보 돕는다" 

데이터 라벨링 기업 에이모 역시 데이터 필요성을 강조했다. 에이모 관계자는 "AI 성능을 높이기 위한 해결책은 결국 데이터"라며 "고품질 데이터를 빠르게 라벨링하는 작업이 AI 경쟁력을 좌우할 수 있다"고 말했다.

에이모는 머신러닝을 위한 학습데이터를 제공하는 플랫폼 기업이다. 자율주행 객체감지, 라이디 센서 객체 감지, OCR 문자 인식 등 다양한 분야의 데이터 라벨링을 지원한다.

지금까지 현대자동차, 네이버, 카카오, SK텔레콤, 인텔리빅스 등의 기업과 다양한 프로젝트를 진행했다. 현대차와는 자율주행용 도로 객체 이노테이션 관련 작업을 했고, 네이버는 다국어 OCR 프로젝트 작업을 수행했다. SKT와는 이미지인식, 인텔리빅스와는 스마트 CCTV용 TOD 객체 이노테이션 작업을 진행했다.

에이모 관계자는 "에이모는 품질관리 서비스를 통해 이노테이션 정확성을 보장한다"며 "다양한 기업과 프로젝트 수행 경험을 토대로 더 정확하고 효율적인 라벨링 서비스를 제공할 수 있다"고 말했다.

에이모는 자율주행 객체감지, 라이디 센서 객체 감지 등 다양한 데이터 라벨링 작업을 지원한다. (사진=김동원 기자)
에이모는 자율주행 객체감지, 라이디 센서 객체 감지 등 다양한 데이터 라벨링 작업을 지원한다. (사진=김동원 기자)

크라우드웍스 "크라우드소싱 기반으로 전 분야 데이터 라벨링 지원" 

크라우드소싱 기반 AI 학습데이터 플랫폼을 제공하는 크라우드웍스 역시 데이터 가공이 AI에서 차지하는 역할이 크다고 밝혔다. 크라우드웍스 관계자는 "AI 경쟁력을 높이기 위해선 다양한 이미지와 음성 데이터를 빠르게 가공해야 한다"고 말했다. 이어 "이러한 작업을 할 수 있는 검증된 인력과 기술이 기업 AI 경쟁력을 좌우할 수 있다"고 덧붙였다.

크라우드웍스는 35만 명 작업자가 참여하는 크라우드소싱 방식 데이터 가공 플랫폼을 제공한다. 누적 데이터 수만 1억 개 이상이다. 크라우드웍스 관계자는 "우리는 1000개 이상 프로젝트를 수행한 경험이 있다"며 "60종 이상 작업 탬플릿을 통해 프로젝트에 최적화된 데이터 수집과 가공 등의 솔루션을 제공한다"고 설명했다.

회사는 데이터 라벨링 인력 채용도 지원한다. 기업 내부에서 라벨링 작업할 인력이 필요할 경우 데이터 기반으로 검증된 인력을 지원한다. 크라우드웍스 관계자는 "인재 풀을 기반으로 프로젝트 경험이 풍부하고 검증된 라벨러 매칭 및 파견 등 맞춤형 HR 서비스를 제공한다"며 "AI 개발에 데이터가 차지하는 비중이 높은 만큼, 데이터 라벨링에 관한 모든 서비스를 지원하는 것이 우리의 목표"라고 밝혔다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사]"고품질 데이터의 빠르고 효율적인 구축 위해 노력"…크라우드웍스, 국제인공지능대전 참가

[관련기사]“데이터 부족 걱정마”…AI 기반 자동 레이블링 시스템 출시

키워드 관련기사
  • 윤기욱 라온피플 CTO "제조 AI 핵심은 데이터, '데이터 중심 AI' 필요"
  • 의료 AI 데이터 편향 심각하다…미국과 중국 데이터가 절반 이상 차지해
  • 오픈AI, 텍스트를 고해상도 이미지로 생성하는 AI 시스템 ‘DALL-E 2’ 개발