더 저렴하고, 시간은 짧게, 확장은 쉬운 오류 탐지 기술개발
AI 모델 구축은 느리지만...데이터 품질은 시급한 요구 사항
마이크로 모델로 세밀한 목표 선정....대용량 데이터도 거뜬

최근 영국의 컴퓨터 비전 기업 엔코드는 AI 학습 데이터 오류 감지 기술을 개발했다. (사진=셔터스톡)
최근 영국의 컴퓨터 비전 기업 엔코드는 AI 학습 데이터 오류 감지 기술을 개발했다. (사진=셔터스톡)

최근 런던의 컴퓨터 비전 회사 엔코드(Encord)가 라벨이 달린 AI 교육 데이터 내에서 오류를 자동으로 감지하는 기술을 개발했다고 IT 매체 벤처비트[Venture Beat]가 최근  보도했다이 기술은 더 저렴하고, 시간이 적게 걸리며, 확장하기 쉽게 만드는 데 도움이 될 수 있다고 엔코드의 공동 설립자이자 최고 기술경영자(CTO)인 에릭 란다우(Eric Landau) 대표는 밝혔다.

인공지능의 특징은 스스로 학습하는 것이다. 과연 현실에서 정말로 그럴까? 이에 대해 란다우 대표그들은 상식을 갖고 있지 않다. 그들은 당신이 그들에게 말하는 것을 통해서만 배운다고 말했다. 또인간이 점점 더 그들에게 의지하듯이 그들도 우리에게 의지한다. 그들은 인간의 프로세스를 획기적으로 가속화하고 연마할 수 있지만, 이 일을 하려면 인간에 의해 올바른 정보를 제공받아야 한다고 그는 강조했다.

, AI가 실생활에 적용되기 전 이들의 교육을 위한 데이터 라벨링이 아직은 필수 요구사항이란 말이다. 전 세계의 수많은 사람들이 AI 교육 프로젝트라 불리는 작업에서 PC를 통해 데이터에 일일이 라벨이라 불리는 주석을 달고 있다하지만 여기서 발생하는 문제가 바로 데이터의 오류다. 불특정 다수가 작업에 참여하기 때문에 데이터 질에 문제가 발생할 소지가 있다. 물론 이 작업에도 검수라 불리는 후속 작업이 이뤄지지만, 그래도 오류 문제는 피할 수 없다.

란다우는 자신들이 개발한 기술이 라벨이 부착되지 않은 교육 데이터의 이런 근본적인 문제들을 해결하기 위한 최초의 도구라고 주장했다.

현재 전세계적으로 수많은 사람들이 AI 학습 데이터 라벨링 작업을 하고 있다. (사진=셔터스톡)
현재 전세계적으로 수많은 사람들이 AI 학습 데이터 라벨링 작업을 하고 있다. (사진=셔터스톡)

여러 개의 마이크로 모델 연결

그의 주장에 따르면 AI 교육 데이터에 라벨을 붙이지 않으면 머신 러닝 작업에 사용할 수 없기 때문에 분 단위로 계속 누적되는 수많은 데이터들에 사람이 일일이 라벨을 붙이는 작업을 하고 있다그러나 인간의 산만함은 오류를 초래할 수 있는데 그렇게 되면 이를 수정하기 위해 이중 작업을 하는 비효율이 발생한다는 것이다.

란다우는오류를 바로잡는 것은 인간의 몫이며, 만약 AI 모델에 정확한 주석을 다는 것에 조심하지 않는다면 이는 부정적인 결과를 가져올 것이라고 지적했다아울러 AI 모델 구축은 느리고 힘든 과정이며 데이터 품질은 머신 러닝 팀에 시급한 요구 사항이다.

이를 위해 엔코드는 신경망을 기반으로 한 마이크로 모델을 사용했다. 이 기술은 세밀한 목표 선정을 통해 큰 모델들이 대량의 데이터에 대해 훈련할 수 있고 사용 사례에 구애받지 않아도 되므로 사용자는 필수 데이터가 무엇이든 간에 정보를 제공할 수 있다.

란다우는이러한 모델들은 아주 일반적인 것이 아니라 한 가지에 능숙한 작고 표적 화된 모델들이라고 설명했다예를 들면 도로 표지판을 감지하는 대시캠(Dash Cam)의 경우, 특정 미국 또는 유럽 도시의 표지판을 개별적으로 이해할 수 있도록 여러 마이크로 모델들이 함께 연결된다.

또한 작업 시간을 최적화하기 위해 자기 지도 학습의 성장 기술을 적용해가장 특징적인사례만 눈에 다시 전달되는 시스템이다현재 이 기술은 테톤 AI를 포함한 전문 컴퓨터 비전 회사들과 의료 기술 기업 서지스(SurgEase), 킹스 칼리지 런던, 세인트 토마스 병원 등이 사용하고 있다우리가 아는 한 이 기술이 컴퓨터 비전을 위한 최초의 자동 라벨 품질 평가 도구가 될 것이라고 그는 자평했다.

데이터 라벨링 작업은 사람이 하는 일이어서 오류의  가능성이 있다. (사진=셔터스톡)
데이터 라벨링 작업은 사람이 하는 일이어서 오류의 가능성이 있다. (사진=셔터스톡)

모델 보다는 데이터에 주력

지난 2020년 설립된 엔코드는 CRV, 시드머니 회사 와이 컴비네이터(Y Combinator), 투자 지주회사 WndrCo, 크레인 벤처 파트너즈(Venture Partners) 등이 후원하고 있으며 올해 5CBI 인사이츠의 가장 혁신적인 인공지능 스타트업 100대 중 하나로 선정됐다란다우 공동 대표는킹스 칼리지 런던, 메모리얼 슬론 케터링 암 센터, 스탠포드 메디컬 센터에서 3배 더 많은 이미지를 처리하고 실험 기간을 80% 단축하는 데 이 도구가 사용됐다고 말했다.

이 회사의 발표에 따르면 병원들이 암 폴립 영상에 주석을 달 수 있도록 도와 평균 6.4배 효율성을 높였다. 97%의 라벨을 자동화해 임상의가 의료 이미지 라벨링을 16배 더 효율적으로 활용할 수 있도록 했다이에 대해 란다우는 우리는 의학 연구를 100배 가속화할 더 많은 계획을 갖고 있다고 말했다.

또 그는 AI 모델에 데이터를 입력하는 것도 중요하지만 모델의 품질은 곧 데이터의 품질이기 때문에 모델보다는 데이터에 의존해야 한다고 강조했다다시 말해 데이터에 부적절한 주석을 달면 AI 모델은 잘못된 학습을 할 수밖에 없고 사용자는 피해를 입게 된다. 일례로 소화기내과 비디오에서 암 폴립을 간과하거나 노인 요양원에 있는 환자가 언제 넘어졌는지 AI가 식별할 수 없다면, 기기는 무용지물이 된다.

특히 그는의료 진단 AI 시스템을 구축할 때, 과학자들은 나이, 국적, 특성 등 모든 유형의 인구 통계의 훈련 데이터를 필요로 한다"며 데이터의 중요성을 강조했다.

AI타임스 조행만 객원기자 chohang5@kakao.

 

키워드 관련기사
  • "고품질 데이터의 빠르고 효율적인 구축 위해 노력"…크라우드웍스, 국제인공지능대전 참가
  • 대규모 AI 학습용 데이터 구축사업 선정에 관련 기업들 '촉각'
  • 크라우드웍스, ‘월드 IT쇼 2021’서 데이터 라벨링 서비스 선보인다