EIRIC, 최종원 중앙대 교수 초대 온라인 세미나 개최
'AI 기술의 실제 적용 가능성 증대를 위한 연구 소개'
"여러 환경적 요인으로 지속적인 타깃 추적 어려워"

최근 인공지능(AI) 카메라가 대머리 심판을 축구공으로 착각해, 공 대신 심판의 머리를 쫓아간 해프닝이 있었다.

영국 매체 데일리 메일은 지난달 24일(현지 시각) 스코티시 챔피언십(2부리그) 인버네스 칼레도니안 시슬과 에어 유나이티드 경기 도중, 인공지능(AI) 중계 카메라가 오작동했다고 보도했다.

인버네스 홈구장은 최근 축구공의 움직임을 자동으로 따라가는 AI 카메라를 설치했다. 인건비를 줄이고 보다 정확한 정보를 전달하기 위한 목적이다.

하지만 문제가 발생했다. 대머리인 심판이 달리기 시작하자 AI 카메라가 공이 아닌 심판의 머리를 쫓았던 것이다.

최종원 중앙대 교수(첨단영상대학원 영상학과)는 "물체 추적에서 가장 많이 발생하는 문제로, 추적을 하는 도중에 조금이라도 놓치면 거기에 대해 학습이 진행된다"며, "틀려진 결과를 학습하다 보니까 공이 아닌 다른 것들에 적응한다"고 설명했다 

공의 형태가 사람의 머리와 상당히 유사하기 때문에 AI가 사람 머리를 공이라고 잘못 학습하고, 그러면서 물체 추적에 실패한 경우가 많다는 것이다.

전자정보연구정보센터(EIRIC)는 지난 5일 최종원 중앙대  교수를 초청해 'AI 기술의 실제 적용 가능성 증대를 위한 연구 소개'라는 주제로 온라인 세미나를 진행했다.

EIRIC은 컴퓨터, 전자·전기, 통신, 융합 분야의 연구와 관련된 것들을 수집·관리하며, 이 정보들을 관계자들에게 제공하는 기관이다. 이런 목적에서 EIRIC은 한달에 2~3회 비정기적으로 AI 등 ICT 관련 전문가를 초청해 'EIRIC 세미나'를 진행하고 있다.

최종원 교수는 최근 AI 연구가 활발하게 진행되고 있지만 몇 가지 이유 때문에 실제 생활에 정확히 적용되기 어렵다며, 이에 대한 해결책을 연구하고 있다고 밝혔다.

이 중에서 최 교수는 물체 추적과 이미지 분류에 실제 적용 가능성을 높이는 것에 대해 발표를 진행했다. 

최 교수는  발표에서 물체 추적 기술을 실제 적용하기 위해서 속도를 향상시키는 AI기술로, 이미지 클래시피케이션(물체 분류)에서 자주 문제가 제기되는 도메인이 바뀔 때, 학습환경과 테스트 환경이 바뀌었을 때 성능을 올릴 수 있는 방법을 소개했다.

최종원 중앙대 첨단영상대학원 교수(사진=양대규 기자)
최종원 중앙대 첨단영상대학원 교수(사진=양대규 기자)

◆ "여러 환경적 요인으로 지속적인 타깃 추적 어려워"

물체(영상) 추적(Visual Tracking)은 영상의 첫 프레임에 추적하고 싶은 물체를 지정해, 그 물체를 프레임마다 놓치지 않고 '지속적으로 추적'하며, 선택한 물체가 어디에 있는지 '반복적으로 찾아나가는 기술'이다. 

추적이 어려운 것은 첫 프레임이 나오기 전까지 어떤 물체를 선택할지 알 수 없다는 것이다. 달리는 사람, 자동차, 사람 얼굴, 인형 등 무엇이 될 지 알 수 없다.

그는 "AI 기술은 추적을 원하는 물체에 대한 데이터가 많을수록 성능이 올라간다"며 "인형의 경우에는 인형 자체에 대한 종류가 많기 때문에 기존 인형의 데이터를 확보해 학습하기 매우 어렵다"고 설명했다.

이런 물체 추적은 로봇, 드론 기술에 기본적으로 탑재됐으며, CCTV, 의료 분야에 많이 활용되고 있다.

하지만 현실에서는 다양한 이유로 물체 추적이 어려워진다. 

먼저 추적하고자 하는 대상과 유사한 다른 객체들이 다양하게 존재할 경우 구분이 어려운 백그라운드 클러터(Background Clutter) 문제가 있다. 미식축구장에서 다양한 헬멧 중 하나를 쫓아야 될 때, 이를 구분하는 것이 기술적으로 어렵다.

또한 ▲물체가 이동하거나 움직이면서 다른 문제에 가려지는 경우인 어클루전(Occlusion) ▲많이 움직이는 물체를 쫓을 때 발생하는 블러(Blur) ▲물체 색상의 변화 ▲원근 등의 이유로 생기는 크기 변화 ▲사람의 경우에는 팔다리가 달라 심한 형태의 변화를 보인다.

대머리 심판의 머리를 쫓아간 AI 카메라의 경우에는 백그라운드 클래터와 블러 문제가 동시에 발생한 것.

최종원 교수는 요즘 AI 모델이 ▲실시간성이 높지만 단순한 분류를 하는 경우 ▲복잡한 경우의 수를 계산할 수 있지만 실시간성이 떨어지는 경우 등 크게 두 가지로 나뉜다고 설명했다.

각각의 모델마다 개선하는 방법이 달라진다며, 최 교수는 모델별 AI 성능을 높이는 법들을 설명했다.

(사진=양대규 기자)
(사진=양대규 기자)

◆"가상환경과 현실환경 달라, AI 적용 어려워"

물체 추적에 이어 최종원 교수는 이미지 분류의 어려움을 해결하는 법에 대해 설명했다.

최 교수는 이를 위해 사용되는 기술이 도메인 어댑테이션(Domain Adaptation)이라고 설명했다. 이는 물체 분류의 성능을 올리는 알고리즘 중 하나다.

심층인공신경망(DNN)에서 특정학습된 환경에서는 잘 작동을 하는데 여기서 조금 바뀌게 되는 환경에서는 성능이 현저하게 떨어진다. 이를 해결하기 위한 것이 도메인 어댑테이션이라는 방법론이다.

하나의 상황이라도 여러 환경에 따라 수없이 많은 정보로 표현된다. 이 정보를 학습단계에 모두 확보하는 것은 사실상 불가능하다. 이런 여러 환경 각각에 라벨을 단다는 것은 거의 불가능한 정도로 비용이 많이 든다.

이 방법론은 이 문제를 해결하기 위해 일반적인 상황에는 라벨을 달고 우리가 모르는 테스트 하고자 하는 환경에는 라벨을 달지 않고, 새로운 환경에 성능을 높이는 연구이기도 하다.

최종원 교수는 이 연구의 최종 목적이 "시뮬레이션 환경 학습을 실제 환경에서 쓸 수 있게 하는 것"이라고 강조했다.

시뮬레이션 환경에서는 라벨을 무제한으로 얻을 수 있다. 하지만 실제 물체에 라벨을 다는 것은 사람이 직접 데이터를 확인해 라벨을 하나씩 달아야 한다는 문제가 있다.

도메인 어댑테이션은 라벨이 자동으로 달린 가상 환경의 데이터만으로 학습을 진행해, 실제 환경에서도 높은 성능을 보일 수 있도록 하는 알고리즘이다.

데이터에 들어가는 비용이 크게 줄어들며, 학습된 모델을 실제 장소에 들고갈 때 성능이 떨어지는 경우를 해결하는 알고리즘이다.

이 방법론을 잘 활용한 딥러닝 기법 중 스타일 트랜스퍼(Style Transfer)라는 것이 있다. 특정 이미지를 다른 스타일로 바꿔주는 알고리즘이다. 예를 들어 일반 말을 촬영했을 때 얼룩말로 바꿔주거나, 반대로 얼룩말을 일반 말로 바꿔준다.

하지만 두 개 도메인 차이가 크면 스타일 트랜스퍼가 작동하지 않는다는 문제가 생긴다. 어느 정도 환경이 비슷하면 문제가 없지만, 손글씨와 표지판 텍스트 등 큰 차이에서는 두 개를 인지하지 못한다는 것이다.

소스 이미지와 타깃 이미지 차이가 큰 경우, 그 사이에 인터미디어트 이미지를 넣어 해결한다. (자료=최종원 교수)
소스 이미지와 타깃 이미지 차이가 큰 경우, 그 사이에 인터미디어트 이미지를 넣어 해결한다. (자료=최종원 교수)

최 교수는 이를 해결하기 위해, 소스 이미지와 타깃 이미지 사이에 새로운 인터미디어트(Intermediate) 이미지를 넣는 법을 고안했다.

그는 최근 AAAI(미국 인공지능학회)2020에 발표한 논문을 통해 소스 이미지와 타깃 이미지의 차이가 심할 경우, 차이를 완화하는 방파제 역할을 하는 인터미디어트 이미지를 넣어 AI의 성능을 높이는 법을 제시했다.

최 교수에 따르면 손글씨와 표지판 사이에서 기존 47.8% 대비 78.5%의 높은 성과를 보였다. 특히 의료 영상과 같이 데이터 확보가 어려운 경우에 소스가 58.5%였다면, 새로운 인터미디어트 기술을 이용할 경우 72.37%까지 성능이 올랐다.

최종원 교수는 "학습환경과 데이터 환경이 다르다"며 "굳이 새로운 데이터를 얻지 않고 기존의 데이터를 활용해 새로운 환경에서 성능을 어떻게 올릴 수 없을까를 연구하고 있다"고 자신의 연구 목적을 설명했다.

Q. 연구에 어려운 점은 없는가?
A. 두 가지 문제가 있다 하나는 데이터의 양이 부족하다는 문제. 다른 하나는 비용과 시간의 문제다.

먼저 다양한 환경을 아우르는 데이터가 부족하다. AI 모델을 개발하다 성능이 잘 나오지 않으면 가장 흔하게 결론 내리는 것이 데이터 부족이다.

AI 모델을 학습하는 환경과 테스트하는 환경이 다를 경우 테스트하는 환경에서의 학습 데이터를 제공할 것을 요구한다. 하지만 실제로 이런 AI 모델을 활용하는 입장에서는 존재하는 모든 경우의 환경 데이터를 제공할 수는 없다.

예를 들어 공장에서 구동되는 어떤 인공지능 모델을 테스트하는데, 공장이 여러 개 있을 수도 있고 공장 내에서도 테스트 환경에 매우 다양하다.

이런 모든 데이터를 제공하여 AI 모델을 학습한다는 것은 비용과 적용 가능성 측면에서 사실상 불가능한 일이다.

다음으로 AI 모델을 적용하는데 필요한 큰 리소스와 소요시간이다.

AI 모델은 아주 커다란 분류기의 집합체로 구성됐다. 이를 한꺼번에 계산하기 위해 고가의 병렬처리장비가 필요하다..

AI 모델을 적용하고자 하는 곳마다 이런 고가의 병렬처리장비를 구축하기가 매우 어려울 뿐만 아니라, 이를 관리하는 것 역시 또다른 비용을 필요로 합니다.

게다가 이런 고가의 병렬처리장비를 사용함에도 불구하고 만족스러운 수준의 성능을 얻기 위해서는 계산시간이 길어진다. 적용하고자 하는 곳이 모바일이나 로봇 등이라면 사실상 적용이 거의 불가능한 상황이다.

이런 높은 비용과 긴 처리시간은 아직 많은 분야에서 인공지능이 사람을 대체하지 못하는 이유가 되고 있다고 본다.

(사진=양대규 기자)
(사진=양대규 기자)

Q. 진행하는 연구는 어떤 결과를 목표로 하고 있나?

지금까지 개발된 다양한 AI 기술이 실제 활용될 수 있도록 앞선 문제점들을 해결하려는 연구들을 진행하고 있다.

설령 테스트 환경이 바뀌더라도 그 테스트 환경에 자동으로 적응해 성능을 높일 수 있는 연구 혹은 인공지능 모델의 성능을 유지하면서 계산에 필요한 리소스의 크기를 줄이거나 계산속도를 빠르게 할 수 있는 방법을 연구하고 있다.

이를 통해 궁극적으로 자율주행에서도 라이다나 레이더가 아닌 카메라 기술만으로 완전자율주행을 구동하는 것이 목적이다.

카메라만으로 자율주행이 가능한 것은 사람의 눈을 보면 알 수 있다. (기술 구현이) 가능하다는 것은 사람이 있기 때문에 입증됐다. 그것을 어떻게 하느냐는 관련 연구자들이 고민해야 하는 것이다.

Q. 영상처리에서 AI는 어떤 도움을 주었으며, 어떤 미래를 보여주나요?

2012년 AlexNet이라는 AI 기술이 수백만장의 이미지를 학습해 기존 영상처리 기술들의 성능을 월등히 뛰어넘는 성능을 보인 이후 매우 짧은 기간 동안 AI는 모든 영상 처리 분야의 성능을 놀랍게 향상시켰다.

현재도 전세계 연구자들이 영상처리 분야의 새로운 문제들을 인공지능을 활용해 개선하고 있으며, 그 관심은 지속적으로 늘어나고 있다.

영상처리 분야에서 가장 유명한 국제학회 중 하나인 CVPR(Conference on Computer Vision and Pattern Recognition) 에서 발표되는 대부분의 최신 영상처리 기술들이 이미 인공지능 기술을 기반으로 연구되고 있다.

2017년 CVPR에 제출된 논문이 2700편이었는데, 단 4년만에 2020년에는 제출된 논문이 무려 1만편이 넘었다는 점을 보면 최근 AI 기술과 영상처리 분야에 얼마나 많은 연구자들이 큰 관심을 갖고 있는지를 알 수 있다.

이 추세는 점점 더 가속화될 것이고 빠른 시일 내에 이런 연구 성과들이 우리의 실생활에 실제로 적용될 것으로 보인다.

Q. AI 전문가가 되기 위해서는 어떻게 해야 하나?

단순히 AI를 공부하고 관련된 프로그램을 구동할 줄 아는 사람을 AI 전문가라고 부르는 시대는 이미 지나갔다.

AI를 깊게 이해하고 각자의 분야에 맞게 AI를 적용하고 개선할 수 있는 AI 전문가가 더욱 필요해지고 있다.

중앙대 첨단영상대학원에 와서 많은 분야에 AI를 적용할 수 있다는 것을 경험했다. 전기전자과 대학생 시절보다 훨씬 더 넓어진 시야를 가지게 됐다.

사고방식에 차이가 나는 것은 예전부터 알고 있었지만, (첨단영상대학원에 온 뒤) 실제로 이런 기술을 적용할 분야가 무궁무진하다는 것을 알게 됐다.

AI를 편하게 생각하는 다양한 분야의 전문가들이 점점 늘어나고, 이들을 통해 AI가 더욱 폭넓게 활용돼 진정한 의미의 AI 시대가 도래하기를 기대한다.

 
최종원 중앙대 교수

 

[관련기사] [스페셜리포트]④ 자율주행차의 눈이 된 비전 AI

[관련기사] 파이토치(PyTorch) 1.7 CUDA 11 출시, 엔비디아 A100 GPU 지원

취재노트
◆AI 개발자를 위한 색다른 질문
Q. AI 연구에 어떤 하드웨어나 클라우드 서비스를 이용하나?
A. 연구실 내 자체적인 병렬처리장비로 연구한다. 주로 상용화된 GPU(그래픽카드) 장비들을 활용하고 있다. 서비스의 경우 연구를 진행하기엔 비용이 너무 비싸서 사용하지 않는다.

자연어처리(NLP)와 달리 현재 연구 중인 컴퓨터 비전은 그렇게 좋은 GPU가 필요없다. 이전 세대의 엔비디아 지포스 2080Ti나 타이탄급이면 충분하다. 최근에는 엔비디아 지포스 3080, 3090을 사용하면 된다.
NLP에서는 고성능 GPU 8개를 연결해야 한다. 컴퓨터 비전에서는 GPU 2~4개만 연결해도 구현할 수 있다.
아직 딥러닝을 구현하는 라이브러리들이 대부분 엔비디아 쿠다(CUDA) 기반으로 돌아가기 때문에 AMD의 GPU는 아직 지켜보고 있다.

CPU는 인텔 X시리즈를 사용하고 있다. 방(교수실)에서 서버를 사용하기 때문에 제온 기반으로 맞추면 소음 등의 문제가 있다.

Q. 즐겨 쓰는 개발 언어는?
A. 파이썬(Python)을 주로 사용합니다. 특히 최근 AI 분야에서는 자신의 AI 기술을 인터넷 상에 공유하는 것이 아주 흔한데, 이 때 대부분의 기술들이 파이썬으로 구현돼 있다. 즉 공유된 기술들을 테스트해보기 위해선 파이썬을 필수적으로 활용해야 한다.

다른 분야에 비해 AI가 빠른 발전을 이룬 이유도 기술 공유가 활발하다는 것이다. 논문 하나를 내면 거기에 나오는 코드, 결과물을 모두 업로드 해준다. 다음 연구자는 거기서부터 시작하면 된다.

또한 AI는 진입장벽이 낮은 학문 중 하나다. 처음에 공부하는 데 조금 어려울 수 있지만, 일단 벽을 넘어서면 세계 최신 기술을 거의 바로 적용할 수 있다.

파이썬을 사용해 코딩 레벨도 기존 SW 개발자보다 확실히 낮다. C를 배우는 것이 프로그래밍을 효율적으로 하는 방법에 도움이 되지만, 파이썬만 활용하는 훌륭한 개발자들도 많이 있다.

다만, 종종 업체 쪽에서 C를 요구하는 경우도 있다. 컴퓨터 비전은 C가 속도가 빠르기 때문이다. 파이썬으로 연구를 하다가도 일부 성능이 나오면 C로 변환을 한다. 간단한 알고리즘에서는 C가 더 빠르다.
키워드 관련기사
  • "눈으로 차량을 제어하다"…AI기반 아이트래킹·DMS 주목
  • 미국 연구진, GPT-3 단점극복하는 새로운 알고리즘 개발
  • 바이든 당선 예측성공한 AI, 아직 고칠 게 많다