사회적 편견 없애기 위해 데이터 품질에 노력
데이터 품질에서 원천데이터가 가장 중요..."다양한 원천 데이터가 AI 편향성 없앤다"
데이터 분야 전문가 품귀 현상..."데이터 관련 직종 다양하고 기회 열려있어"

디지털 뉴딜 사업의 핵심인 데이터 댐 구축이 한창이다. 질 좋은 원천 데이터를 확보해 나가기 위한 프로젝트다. 인공지능(AI) 학습 데이터 수집부터 가공까지 직접 다루는 기업이 있어 찾아 보았다. 지난해 과학기술정보통신부 지능정보사회 선도 표창상을 수상한데 이어 올해 ‘소프트웨어고성장클럽200’ 과 5월 우수 데이터(D)·네트워크(N)·인공지능(A) 기업에 선정된 테스트웍스다. 테스트웍스는 사회적 기업으로도 유명하다. 사회취약계층을 포용해 현재 전체직원 중 취약계층비율이 38%를 차지한다. 그 공로로 지난해 4월 기술보증기금으로부터 ‘사회적가치 및 일자리 창출 공로상’을 수상하기도 했다. 데이터 전문성과 사회적 가치실현이라는 두마리 토끼를 잡은 것이다. 어떻게 가능했는지 윤석원 대표 이야기를 직접 들어보았다.

윤석원 테스트웍스 대표

"인도에서 보행하는 장애물을 탐지하는 AI모델을 만든다고 합시다. 장애물은 행인, 주차된 차, 자전거, 킥보드가 될 수 있습니다. 근데 만약 학습데이터에 강아지, 고양이 데이터가 없으면 AI는 이를 인식하지 못하게 됩니다." 

윤대표는 댜양한 원천 데이터가 있어야 좋은 학습 데이터 셋을 만들 수 있다는 이야기를 이렇게 풀었다. AI와 관련한 인종차별ㆍ성차별 문제 등 AI의 편향성도 여기서부터 출발한다는 얘기다.

그는 이어 "좋은 데이터를 확보하기위해서는 데이터 가공도 중요하지만 수집 작업이 중요하다"면서 "아무리 많은 신호등, 자동차 사진을 수집해도 강아지와 고양이 사진 데이터가 빠졌다면 원천 데이터 품질은 좋다고 할 수 없다"고 설명했다.

테스트웍스가 자체적으로 데이터를 수집하는 프로젝트인 'aiWorks'를 진행하고 있는 것도 이같은 그의 소신과 무관하지 않다. 누구나 프로젝트에 가입하고 원천 데이터를 수집하면 품질에 따라 금액을 지급한다. 또 사회기관과 협력, 봉사시간으로도 인정해준다. 가령, 인도사진 80장을 수집하면 사회봉사시간 1시간을 인정해주는 개념이다.

“자폐장애인은 한가지에 뛰어난 집중력을 보여주기 때문에 테스트업무에서 높은 성과를 보여줍니다. 또 청각장애인은 일반인보다 시각적으로 예민해 시각 데이터 작업에 능숙합니다. 하지만 장애인에 대한 편견때문에 기업에서 저희를 거부하는 사례가 많았습니다.”

그는 장애인이 일반인보다 좋은 성과를 보여줄 수 있음에도 사회적 편견이 있다고 지적했다.

"경력단절여성은 나이가 많다는 이유로 외면 당하고 있습니다. 이같은 편견을 깨기 위해 다른 업체보다 품질에 더 많은 신경 쓰고 있습니다. 가공한 데이터를 꼼꼼히 검수하고 또 검수합니다. 그 결과 올해는 주문량이 지난해보다 5배나 늘었습니다."

사회적기업으로 성공할 수 있던 배경을 설명하던 윤 대표는 젊은 시절 경험담도 곁들였다. 사회 취약계층에 관심을 갖기 시작한 20대 시절 이야기다.

사실 그는 신학도였다. 4년 6개월의 신학교 수도생활까지 마쳤다. 하지만 그는 미국 코넬대 유학시절 전공을 사회복지학에서 컴퓨터공학으로 바꿨다. 이후 그는 20년 가까이 마이크로소프트(MS)와 삼성전자에서 개발자로 근무했다. 

그가 다시 생각을 바꾼 것은 한 소프트웨어(SW) 테스트 기업이 자폐 장애인을 고용해 SW 테스팅 분야에서 좋은 성과를 거뒀다는 뉴스를 접한 뒤였다. 2015년의 일이었다. 그는 바로 SW 테스트 기업 테스트웍스를 설립했다. 

테스트웍스 직원이 데이터 라벨링을 하는 모습
테스트웍스 직원이 데이터 라벨링을 하는 모습

고난이도 라벨링 전문성 필요

"신호등을 인식하는 AI 모델을 만들 때 이미지 데이터에서 태깅을 안하면 라벨링 과정에서 오류가 발생합니다. 신호등 외에 사람이나 자동차 등 다른 대상에도 태깅하거나 아예 다른 대상에만 태깅해도 문제가 생깁니다." 

윤 대표은 데이터 라벨링 과정에서 오류가 발생하는 경우를 '미태깅' '과태깅' '오태깅' 세가지로 나눠 설명했다. 

AI가 데이터를 인식하도록 데이터에 태그를 표시하는 작업을 ‘데이터 라벨링’이라고 한다. 테스트웍스는 AI 기술을 활용해 이 과정을 자동화 했다. 1차 자동화 후 사람이 직접 검수한다. 하지만 객체수가 30~40개가 되는 것과 흐릿하게 보이는 객체, 폴리곤 형태는 눕기를 따야한다. 이런 작업은 자동화하면 오류가 많아 숙련된 전문가가 작업을 한다. 또 법률 분야, 의학 분야와 같은 AI모델을 만들때는 관련 분야 전문가가 학습데이터를 가공해줘야 한다. 

이런 오류를 줄이기 위해서는 가이드를 잘 만들어야 한다. 데이터 라벨링 인력을 지도할 전문가가 필요하다. 테스트웍스는 데이터 전문가 인재양성에 주력, 300여명의 숙련된 전문가를 보유하고 있다. 지난 6월에는 서울시와 함께 ‘여성새로일하기센터’에서 경력단절 여성 145명을 전문인력으로 양성하는 교육을 시작했다.

데이터 분야 전문가 품귀 현상

“데이터 분야 업계 전문가가 많이 부족합니다. AI 기술 성장과 함께 분야 리더가 될 수 있는 절호의 기회죠.”

데이터 업계에서 업무는 다양하다. 데이터 라벨링 업무외에도 프로젝트 관리인, 고객 데이터 설계자 (컨설턴트), AI 서비스 기획자 등 문과생이 이과생보다 잘할 수 있는 일도 많다.

윤대표는 많은 학생들이 프로그래머만 바라 볼게 아니라 데이터 사이언티스트도 유망 직종이니 관심을 가지면  도움이 될 것이라고 조언했다.

“AI의 영향력이 커지면 없어지는 일자리도 많아질 겁니다. 기업이 기존 인력을 줄이려는 생각보다 무슨 일을 해야할지를 생각해봐야 합니다.”

윤대표는 취약계층 뿐아니라 기업이 사회적 가치 실현을 위해 나아가야 할 방안에도 관심을 보였다. AI와 달리 사람만이 할 수 있는 일을 찾아줘야 기업 경쟁력도 높아진다는 생각이다.

AI가 다양한 사회 문제 해결할 수 있다

“AI 발전이 예전에 해결하지 못했던 장애인의 문제를 해결할 수도 있습니다. 예를 들어 시각장애인이 식사를 할 때 AI가 어떤 반찬이 있는지 식별해 주거나 미팅룸에 들어가지 전에 미팅룸 현황을 미리 알려줄 수도 있습니다.“

그는 AI 개발은 자본 창출에만 목적을 둘 것이 아니라 이같은 사회문제 해결에 초점을 맞출 것을 주문했다. 이를 위해서는 정부 역할이 가장 중요하다고 보았다. 정부가 민관 합동 프로젝트를 주도하면 역기능 없이 AI를 활용하는 미래 세계를 설계할 수 있다는 것이다.

테스트웍스도 이같은 그의 생각에 보조를 맞춰 고품질의 AI 데이터 전문 업체로 발돋움해 나가겠다는 목표를 세웠다. "당분간은 국내에서 디지털 뉴딜 사업에 집중하겠지만 궁극적으로는 해외로 나가 세계 각지의 사회문제를 해결하는 글로벌 AI서비스 기업을 만들 계획입니다." 윤대표가 포용적 고용을 꿈꾸며 밝힌 포부다.

[AI & 정책] NIA ㆍMS, "AI로 사회적 가치 실현"

[AI & 산업] 테스트웍스, NIA 'AI 학습 데이터 구축 사업' 과제 수주