전자정보연구정보센터(EIRIC) 세미나 개최
다중 DNN 연산, 한정된 모바일 하드웨어 경쟁
작업 순서, 방식 바꾸는 효율적인 딥러닝 필요
"일상 속 MR, 향후 5년 내 구현 조심스럽게 예상"

 

지난 18일 EIRIC 세미나에는 이주헌 서울대 인간중심컴퓨팅 연구소 연구원을 초청해 '모바일 환경에서 MR 구현을 위한 효율적인 딥러닝'이라는 주제로 세미나를 개최했다. (영상=EIRIC 유튜브)

“사실감있는 혼합현실(MR)을 구현하려면 자원한정적인 모바일 기기에서 효율적인 실시간 딥러닝, 랜더링 작업을 수행해야한다”

전자정보연구정보센터(EIRIC)는 지난 18일 이주헌 서울대 인간중심 컴퓨터 시스템 연구소(Human-Centered Computer Systems Lab) 연구원을 초청해 ‘모바일 환경에서 MR 구현을 위한 효율적 딥러닝’이라는 주제로 세미나를 개최했다.

EIRIC은 컴퓨터, 전자·전기, 통신, AI, 융합 분야의 연구와 관련된 것들을 수집·관리하며, 이 정보들을 관계자들에게 제공하는 기관이다. 이런 목적에서 EIRIC은 한 달에 2~3회 비정기적으로 AI 등 ICT 관련 전문가를 초청해 'EIRIC 세미나'를 진행하고 있다.

차세대 미디어 기술로 각광 받는 혼합현실은 ‘현실과 가상이 혼재된’ 새로운 환경을 뜻한다. 현실 세계에 가상의 정보를 구현하는 ‘증강현실(AR, Augmented Reality)’과 가상공간에 현실정보를 추가하는 ‘증강가상(AV, Augmented Virtuality)’ 기술을 아우르는 용어다.

AR 게임 포켓몬고처럼 현실 세계에 가상의 장면을 등장시키거나, 가상 교실에 실재 선생님을 등장시키는 AV 기술 등이 그 예다.

최근에는 페이스북에서 출시한 VR헤드셋 ‘오큘러스 퀘스트2’가 지난 11일 3차 판매에서 2시간 만에 2000대 물량이 완판돼 화제를 끌었다. 이처럼 가상과 현실 세계를 잇는 ‘혼합현실(MR, Mixed Reality)’ 기술시대가 점점 가까워지고 있다.

하지만 몰입감높은 혼합현실을 구현하기 위해서는 아직 해결해야 할 기술적 한계가 남아 있다. 스마트폰, VR헤드셋 등 모바일 기기에서 시각과 청각을 비롯한 현실, 가상 세계의 방대한 데이터를 실시간으로 처리해야 하기 때문이다.

이주헌 연구원은 이와 같은 문제를 해결하기 위해 효율적인 모바일 환경에서 딥러닝 기술을 개발하고 있다.
 

◆다중 DNN 동시 처리 시간 > 개별 DNN 연산 시간의 합

그래프 좌측에는 개별 DNN 연산 시간이 각각 100~200ms가 소요되는 것을 확인할 수 있다. 한편 가장 우측의 4가지 DNN 작업을 동시 수행한 결과 소요 시간은 더 늘어난다.(사진=이주헌 연구원 제공)
그래프 좌측에는 개별 DNN 연산 시간이 각각 100~200ms가 소요되는 것을 확인할 수 있다. 한편 가장 우측의 4가지 DNN 작업을 동시 수행한 결과 소요 시간은 더 늘어난다.(사진=이주헌 연구원 제공)

혼합현실 구현을 위해서는 여러 심층신경망(DNN, Deep Neural Network) 추론 연산이 렌더링 연산과 동시에 진행돼야 한다. 한 장면에 다양한 시각정보가 혼재돼있으며 화질 개선, 대상 인식 등 여러 가지 정보 처리가 함께 이뤄져야 하기 때문이다.

문제는 여러 딥러닝이 병렬적으로 처리될 경우 소요 시간이 늘어난다는 점이다. 4개의 딥러닝을 동시 처리한다고 가정한다. 이때 1개의 딥러닝을 각각 처리해 소요 시간을 합친 것보다 4개의 딥러닝을 한 번에 진행한 경우가 소요 시간이 더 길다.

시각정보를 모바일 GPU(그래픽처리장치)로 단일 DNN 연산 시 각각 100ms(밀리세컨드, 1/1000초)~200ms의 시간이 소요된다. 하지만 4개의 DNN을 동시 처리하면 GPU 자원을 경쟁하며 400ms~1200ms가 소요된다.

이는 다중 연산을 동시 처리할 경우 GPU 자원을 효율적으로 작업에 분배하기 어렵기 때문이다. 이에 각각의 딥러닝 모델의 효율성을 올리고, 여러 딥러닝 모델을 작업을 적절하게 분배해 GPU의 자원 한정 문제를 해결할 수 있다.
 

◆타깃에 집중, 모바일-클라우드 병렬처리... 정확도·효율화 상향

MR 기술을 통해 복잡한 도심에서 인물을 찾는 '이글아이' 프로젝트. 더 정확하고 효율적인 방법을 딥러닝을 진행하는 게 핵심이다.(사진=이주헌 연구원 제공)
MR 기술을 통해 복잡한 도심에서 인물을 찾는 '이글아이' 프로젝트. 더 정확하고 효율적인 방법을 딥러닝을 진행하는 게 핵심이다.(사진=이주헌 연구원 제공)

이 연구원은 복잡한 도심 공간에서 모바일을 통해 목표 인물을 찾는 MR 기술인 '이글아이(EagleEye)' 프로젝트를 진행했다. 해당 논문(EagleEye: Wearable Camera-based Person Identification in Crowded Urban Spaces)은 모바일 컴퓨팅 분야 세계 최고 권위를 인정받는 학술대회 ACM MobiCom 2020에 게재됐다.

이는 수많은 군중에서 작은 얼굴 이미지를 더 ‘빠르고’, ‘정확하게’ 식별하는 연구다.

정확한 안면인식을 위해 이주헌 연구원은 인물 레퍼런스 사진을 확충하는 방법을 제시한다. ‘아는’ 사람을 찾는 게 모르는 사람을 찾는 것보다 더 쉽기 때문이다. 25명 대상에게 15개 사진 속의 인물을 찾는 실험 결과, 익숙한 인물을 찾는 게 그렇지 않은 경우보다 16초가량 빨랐다. 이러한 원리로 저화질 이미지 속 안면인식을 더 정확하게 이뤄낸다. 14x14 이미지 인식 정확도가 78%가량 상승한다.

효율성의 경우 딥러닝이 이뤄져야 할 영역을 제거하고, 복잡한 연산이 필요한 대상을 가려내 딥러닝 모델을 차등 적용한다.

건물과 벽이 자리잡은 곳에는 사람 얼굴이 없어 '인식 영역'에서 배제하면 효율적인 딥러닝을 수행할 수 있다. (사진=이주헌 연구원 제공)
건물과 벽이 자리잡은 곳에는 사람 얼굴이 없어 '인식 영역'에서 배제하면 효율적인 딥러닝을 수행할 수 있다. (사진=이주헌 연구원 제공)

건물이나 벽이 자리 잡은 구역에는 얼굴 이미지가 없다. 이에 장면 속 불필요한 인식 영역을 제거한다. 장면 속 얼굴 요소인 ‘엣지’가 드문 구역을 인식 대상에서 배제시키는 방식이다.

이후 각도, 크기별로 안면인식이 더 복잡한 대상을 가려낸다. 이에 적절한 딥러닝 모델을 적용시켜 효율성을 높인다. 정면으로 찍혀 인식이 쉬운 이미지에 고성능 딥러닝 모델을 적용하는 비효율성을 줄이는 방식이다.

(사진=이주헌 연구원 제공)
(사진=이주헌 연구원 제공)

뿐만 아니라 모바일 GPU와 클라우드 GPU를 병렬적으로 처리하는 파이프라인 연산으로 효율성을 더 높인다. 파이프라인 방식이란 하나의 작업이 끝나기 전에 다른 작업 수행을 시작하는 연산 방법을 뜻한다. 얼굴 이미지를 모바일과 클라우드 GPU에 나눠 이중 처리를 통한 작업을 진행한다.

이러한 방법을 통해 순차적 딥러닝 모델 수행 시에 대비해 약 9배가량 효율성이 개선된다.
 

◆모바일 GPU 스케줄링 플랫폼 개발...하임달 시스템

현재 모바일 GPU가 다중 DNN 처리를 효율적으로 못하는 이유는 ‘피포(FIFO, First In First Out)’ 기반 작업 방식 때문이다. 피포는 선입선처리 제어방식을 뜻한다.

여러 가지 DNN은 CPU에서 사전처리 된 후 GPU로 넘어가 연산된다. 이때 사전처리가 먼저 끝난 DNN이 GPU를 선점해 작업을 수행한다. 이때 GPU를 선점하지 못한 다른 DNN 작업들은 무한대기를 해야 한다. 우선순위에 따른 작업 수행이 불가한 지점이다.

뿐만 아니라 모바일 환경의 GPU로는 연산이 되지 않는 DNN 작업들이 있다는 것도 문제점이다. 이 경우 ‘폴백(Fall-Back)’ 현상이 일어난다. 폴백은 시스템 가동에 문제가 생겨 일부 혹은 전체 시스템을 다른 방법으로 처리하게 되는 경우를 뜻한다. GPU를 선점한 작업에서 폴백이 일어날 경우 또다른 비효율이 발생하는 지점이다.

몰입감에 가장 중요한 요소인 '렌더링' 작업은 주기적으로 스케줄링한다. 사이에 세분화한 DNN 레이어 작업을 배치해 효율성을 높인다.(사진=이주헌 연구원 제공)
몰입감에 가장 중요한 요소인 '렌더링' 작업은 주기적으로 스케줄링한다. 사이에 세분화한 DNN 레이어 작업을 배치해 효율성을 높인다.(사진=이주헌 연구원 제공)

이에 이주헌 연구원은 DNN을 세부 레이어로 쪼개어 작업을 수행하는 방식을 제시했다. 관련 연구인 ‘하임달 시스템’에 관한 논문(Heimdall: Mobile GPU Coordination Platform for Augmented Reality Applications)은 ACM MobiCom 2020에 게재됐다.

하임달 시스템은 핵심은 2가지다. ▲DNN을 더 작은 작업인 레이어로 어떻게 ‘세분화’ 하느냐▲세분화한 레이어 작업 수행을 어떻게 ‘조율’하느냐다.

작업 세분화의 경우 DNN에 집중한다. 렌더링의 경우 고화질 이미지 작업도 5~10ms 정도 소요된다. 반면 DNN의 경우 100~200ms가 소요된다. 이러한 연산 시간이 긴 작업이 피포 방식에서 GPU를 선점하면 그동안 렌더링이나 다른 작업을 수행할 수 없어 비효율적이다.

DNN의 경우 큰 틀에서는 하나지만 세분화하면 수십 개의 세부 레이어로 이루어져있다. 90%미만의 작업은 5ms 이하 시간에 처리 가능하다. 피포 방식에서 GPU를 선점해도 다음 작업 수행까지 간격이 짧아 효율적인 스케쥴링이 가능하다.

작업 조율의 경우 피포 방식의 장점을 살렸다. 피포 방식은 작업 소요 시간을 예측할 수 있다. 이에 하나의 작업이 끝나는 시점을 고려해 적재적소에 수행이 필요한 작업을 배분한다. 이때 너무 작은 레이어를 따로따로 수행하며 오는 시간 지연 문제까지 고려해 최적화된 작업 순서를 결정한다.

이에 렌더링 작업의 프레임 비율은 적정선을 유지하면서 DNN 작업을 위한 GPU 자원 경쟁을 줄일 수 있었다.

미니인터뷰(Mini Interview)

Q. MR이 모바일 환경에서 완벽하게 구현되는 시기를 언제쯤으로 예상하나?

A. 현재 MR 연구가 굉장히 활발히 진행되고 있지만 일상 속에서 자유롭게 사용할 수 있는 수준으로 완벽히 구현되기 위해서는 아직 많은 연구가 필요할 것으로 예상된다.

다양한 분야에서 통합적인 최적화를 위한 연구가 필요하다. NPU, TPU 등 하드웨어와 3D 비전, 공간 음향을 생성·처리하는 AI 알고리즘 등.

Microsoft, Facebook 등에서 실제 상용 서비스들을 개발·출시하고 있어 기술이 빠르게 현실화 되고 있다. 향후 5년 이내 완벽한 MR 응용이 구현되지 않을까, 조심스레 예상해본다.

Q. GPU 경쟁 외 모바일 환경 내 MR 구현의 걸림돌이 있다면?

A. 실제 환경에서 상용 가능한 저가 모바일 기기에서는 센서 입력의 경우 큰 성능 저하가 있다.

‘EagleEye’ 프로젝트 진행 시 벤치마크 데이터셋에서는 99% 이상의 정확도를 달성했다. 하지만 실외 공간에서는 조명, 화질, 카메라 노이즈 등 여러 요인에 의해 인식 정확도가 매우 떨어지는 것을 경험했다.

DNN의 정확도가 떨어질 수 있는 실제 환경에서도 높은 사용자 몰입도를 보장하는 것이 큰 연구문제라고 생각한다.

Q. 눈을 깜박이는 시간 등을 절약해 GPU를 효율적으로 이용하는 것도 가능한가?

A. 가능하다. 사용자 ‘인지’를 활용하는 사례다.

눈을 깜빡이거나 화면을 보지 않는 경우 연산을 생략하거나, 화면 내 물체가 변하지 않아 DNN 연산 결과에 변화가 없는 경우 이전 결과를 재사용할 수 있다.

몰입감있는 MR을 위해 단순히 주어진 작업을 잘 수행하는 것이 아닌, 상황에 따라 연산을 건너뛰는 등의 최적화가 필요하다.

Q. 연구를 진행하면서 가장 어려웠던 점은?

여러 분야의 최신 동향을 파악하는 게 어려웠다. MR이 멀티미디어, 모바일 컴퓨팅, AI, 통신, 인간-컴퓨터 상호작용(HCI) 등 다양한 분야를 포괄하는 기술인만큼 통합적인 최적화를 수행해야 하는 경우들이 많다.

특정 연구주제에 관심이 생겨 프로젝트를 진행하다 보면 생각하지 못했던 다양한 분야까지 공부해야 하는 경우들이 많았다.

하지만 프로젝트를 수행할 때마다 새로운 분야에서 다른 연구 문제를 발견하고 경험하는 즐거움도 있었다.

 
이주헌 서울대 인간중심컴퓨팅 연구소 연구원

 

AI타임스 장희수 기자 heehee2157@aitimes.com

[관련기사]" '노커'와 '메타센스', 모바일 센싱의 영역·성능 확대"…공태식 카이스트 박사과정 연구원

[관련기사]"학습 비용 줄이는 최신 자기지도학습"…정희철 경북대 인공지능학과 교수

키워드 관련기사
  • 정보통신망법 개정안 주요 타겟이 된 ‘AI 기업’ ...개발자들 반대 거세다
  • "지능형 범죄, AI가 맞선다"...ETRI, 치안 향상 인공지능솔루션 공개
  • 빨간색은 왜 빨간색 하나로 불릴까? ...페이스북 AI가 실험을 통해 밝혔다