CNN블록 대신 RNNpool 사용, 중간 이미지 표현 크기 신속 감소
기존 모델보다 사용 RAM 규모 10배, 컴퓨팅 3배 줄여
뉴립스2020서 발표, IoT 컴퓨터비전 실현과 ML 대중화 기대

컴퓨터비전 작업에 CNN블록 대신 RNNpool을 사용해 필요한 메모리와 컴퓨팅 파워 크기를 대폭 줄이면서 정확도는 유지하는 기술이 등장했다. 해당 기술은 사물인터넷(IoT)에서의 컴퓨터비전을 실현하고 머신러닝(ML)에 필요한 비용을 줄여 ML 활용을 확대하는데 기여할 수 있을 것으로 주목된다.

마이크로소프트(MS)는 11일 공식블로그에서 컴퓨터비전에 필요한 메모리와 컴퓨팅 장치를 줄인 RNNpool 기술을 소개했다. 해당 기술 효과를 입증한 논문인 ‘RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference’은 9일 NeurIPS2020에서 발표됐다.

이번 기술을 개발하게 된 계기에 대해 MS는 “기존 컴퓨터비전 작업에서 사용하는 표준 CNN은 중간 활성화 맵이 커서 큰 메모리가 필요하다는 한계가 있었다. 특히 추론에 사용되는 리소스가 제한된 장치에서 엣지 형태로 작업을 하는데 적합하지 않았다”고 말했다.

풀링 또는 스트라이드 컨볼루션으로 이미지를 다운 샘플링하는 방식도 사용할 수 있지만 이는 비교적 간단하고 손실이 많은 집계에 의존하므로 큰 수용 필드에 적용하면 정확도가 크게 감소하는 문제를 보였다는 설명이다.

MS는 “이것은 일반적인 소형 장치에 정확도가 높은 CNN을 배포하는 데 있어 큰 장애물이 된다. 대부분 장치들은 전력 소비 등을 제한하기 위해 소규모 RAM이 탑재된 마이크로 컨트롤러로 구동되기 때문이다”라고 강조했다.

이번 연구에서 MS는 컴퓨터비전에 풀링 연산자인 RNNpool을 도입해 중간 이미지 표현 크기를 빠르게 줄이는데 성공했다. 소규모 메모리와 제한된 컴퓨팅 장치에서 정확도가 높은 이미지 분석 작업을 가능을 수행한 것이다. 연구에 따르면 RNNpool 적용 모델은 기존 엣지 최적화 모델보다 8~10배 적은 RAM과 2~3배 적은 컴퓨팅을 사용하는 동시에 거의 동일한 정확도를 보였다.

MS가 구축한 RNNpool 기반 모델 구조
MS가 구축한 RNNpool 기반 모델 구조

MS는 “(이 기술을) 기존 CNN 블록 대신 적용 시 훨씬 더 적은 수의 레이어, 더 작은 중간 표현, 더 적은 계산 요구 사항을 가진 CNN 모델을 사용할 수 있다. 구문 상 풀링 연산자와 동일하므로 CNN 내 모든 풀링 연산자를 대체 가능하다”고 설명했다.

특히 CNN 아키텍처 시작 부분에 RNNPool을 배치하면 활성화 맵을 빠르게 다운 샘플링해 최대 RAM 요구 사항을 낮추고 여러 레이어를 건너 뛰어 추가 계산 이점을 제공 할 수 있다는 주장이다.

RNNpool은 활성화 맵의 각 패치를 가로와 세로로 스위핑해 각 패치를 단일 벡터로 요약하는 2개의 학습된 RNN으로 구성됐다.

연구진은 RNNpool 적용 모델 효과를 검증하기 위해 기존 최첨단 엣지 모델인 이글아이(EagleEye)와 RNNPool 기반 RNNPool-Face-Quant 모델 성능을 비교했다. 실험에서는 두 모델을 사용해 이미지 또는 비디오 프레임에 사람이 있는지 여부와 위치를 확인했다. 실험 결과, RNNPool-Face-Quant 모델이 이글아이보다 높은 정확도를 보였다.

RNNpool 기반 모델인 Rpool-Face-Quant이 이글아이보다 적은 RAM으로 높은 정확도(MAP)를 보이고 있다
RNNpool 기반 모델인 Rpool-Face-Quant이 이글아이보다 적은 RAM으로 높은 정확도(MAP)를 보이고 있다

MS는 “훨씬 적은 매개 변수를 가진 기존 최첨단 모델보다 훨씬 정확하다는 것을 확인했다. 더욱 중요한 사실은 MS 리서치에서 개발한 ‘SeeDot’라는 양자화 및 코드 생성 도구를 사용했다는 것”이라고 강조했다.

이어 MS는 “실증적 평가에 따르면 RNNPool 레이어는 MobileNets와 같은 다양한 아키텍처에서 여러 블록을 효과적으로 대체할 수 있다. 이미지 분류나 얼굴 감지와 같은 표준 비전 작업에서는 DenseNet 대신 사용 가능하다”고 말했다.

RNNpool 기반 모델은 IoT에서의 컴퓨터비전 작업 실행에 특히 유용할 것으로 보인다. MS는 “RNNPool-Face-M4로 구동되는 시스템을 사무실 회의실에 배치하면 공간을 보다 효율적으로 관리할 수 있다. 특정 시간에 어떤 방이 사용되는지 관찰하기 위해 관리자가 직접 방문하지 않고 시스템이 현황을 파악해 보고하는 식”이라고 말했다.

같은 방식으로 스포츠 경기장에 도입 시 고객 서비스 부스에 직원을 효율적으로 배치, 이동시킬 수 있을 것으로 기대된다. 이외에 시각장애인이 사용하는 지팡이에 컴퓨터비전을 도입해 사고 위험을 알리고, 상품 매대에서 재고를 파악해 물품 관리를 도울 수도 있다.

MS에 따르면 RNNpool 적용 모델은 IoT 컴퓨터비전 작업뿐만 아니라 모든 엣지ML에 활용해 ML 작업을 보다 대중화할 수도 있다. MS는 “이번 기술은 효율적인 ML 알고리즘의 오픈 소스 라이브러리인 엣지ML 일부다. 일반적인 ML 사용 확산을 위한 노력 일환이라고 볼 수 있다”고 말했다.

엣지ML이 보급되면 데이터를 클라우드로 전송하는데 많은 전력이 필요한 하드웨어가 불필요하기에 하드웨어 구입·관리에 드는 금전적 비용과 전력과 같은 에너지 비용, 대기시간까지 모두 줄일 수 있다.

 

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]AI계 노벨상 '튜링상' 수상자 3인, NeurIPS 2020 워크숍에서 함께 발표

[관련기사]카카오·카이스트·성신여대·숭실대, 세계 저명 AI학회 NeurIPS2020에 잇달아 논문 선정

키워드 관련기사
  • 구글, 엣지 컴퓨팅 기술 확장 나선다...200개 기업과 파트너십 맺어
  • 마이크로소프트가 ‘강화학습’에 꽂혔다
  • 中, 기존 슈퍼컴보다 1조배 빠른 양자컴퓨터 '지우장' 개발