EIRIC, 정희철 경북대 인공지능학과 교수 초대 온라인 세미나 개최
딥러닝 한계 극복하는 최신 자기지도학습 기법 소개
"제프리 힌튼 'SimCLR' 기법, 이미지넷 수준 성과"

(이미지=셔터스톡)
(이미지=셔터스톡)

 

"아이들이 태어나 시각이 발달하면 주변 사물을 관찰한다. 말을 하거나 표현을 하기 전에 주변을 본다.

아이들은 처음에 장난감을 손으로 밀면 떨어진다는 것을 모른다. 하지만 이를 경험하다 보면 손으로 밀면 떨어진다는 것을 학습하고 예측한다.

중력이나 이론적인 것을 모르지만 실제로 떨어진다는 것을 예측할 수 있다. 관측으로 학습이 가능하다는 것이다.

이는 사람뿐만 아니라 침팬지의 경우에서도 알 수 있다. 컵에 물을 부어 침팬지에게 쏟는 흉내를 내면 침팬지는 놀라서 도망간다. 

컵에 물이 들어가는 것을 보고 물을 붓는 듯한 동작에서 침팬지는 물이 자신에게 쏟아질 것을 예측한다.

펜과 같은 물체를 세우면 바로 쓰러질 것을 우리는 안다. 얼굴이 절반이 가려진 상태에서 숨은 공간이 어떻게 생길 것인지를 예측할 수 있다"

정희철 경북대 인공지능학과 교수는 지도학습(Supervised Learning) 기반 딥러닝 기술의 단점을 지적하며 "사람이나 동물은 어떻게 빨리 배우는지에 대해 생각해볼 필요가 있다"고 위와 같은 예시를 들었다.

전자정보연구정보센터(EIRIC)는 11월 30일 정희철 교수를 초청해 '자기지도학습(Self-Supervised Learning)'을 주제로 온라인 세미나를 진행했다.

EIRIC은 컴퓨터, 전자·전기, 통신, 융합 분야의 연구와 관련된 것들을 수집·관리하며, 이 정보들을 관계자들에게 제공하는 기관이다. 이런 목적에서 EIRIC은 한달에 2~3회 비정기적으로 AI 등 ICT 관련 전문가를 초청해 'EIRIC 세미나'를 진행하고 있다.

정희철 교수는 딥러닝의 한계를 극복하기 위해 라벨링을 하나씩 붙이는 지도학습보다는 인간이나 동물과 같이 라벨링되지 않는 것에서 스스로 학습하는 바로 자기지도학습 기법이 필요하다고 지적했다.

데이터마다 라벨링을 하기 위해서는 비용이 발생할 수밖에 없다.(사진=셔터스톡)
데이터마다 라벨링을 하기 위해서는 비용이 발생할 수밖에 없다.(사진=셔터스톡)

◆딥러닝 한계 극복위해 자기지도학습 필요해

정 교수는 "딥러닝 커뮤니티에서 현재 세 개의 문제가 핵심 이슈"라고 말했다.

첫 번째는 트레이닝을 하는 데 조금 더 적은 라벨링 샘플과 실험으로 학습하는 법이다. 이를 위해서 자기지도학습, 비지도학습(Unsupervised Learning), 공백을 메우는 학습(Learning to Fill In the Blank) 등이 필요하다.

그는 "다 같은 개념"이라며, "어떤 과업(task)을 학습하기 전에 세계를 표현할 수 있는 방법을 배우자라는 것"이라고 설명했다. 이것이 자기지도학습을 비롯한 세 개념의 핵심이라는 것.

두 번째는 '추론(reasoning)'이 어렵다는 것, 세 번째는 복잡한 액션 시퀀스(Action Sequences)에 대해 계획(planning)할 수 있는 것.

이날 세미나에서 정 교수는 첫 번째 이슈인 '자기지도학습'이 딥러닝에서 이미지 인식에 어떻게 사용되고 발전됐는지 설명했다.

SNS에는 매일 18억개의 이미지가 업로드 되지만, 이미지넷의 라벨링된 데이터는 1200만개에 불과하다. (이미지=정희철 교수 강연 중)
SNS에는 매일 18억개의 이미지가 업로드 되지만, 이미지넷의 라벨링된 데이터는 1200만개에 불과하다. (이미지=정희철 교수 강연 중)

정희철 교수는 2014년 메리 미커의 인터넷 트렌드 리포트를 인용해 "매일 사람들이 트위터나, 페이스북, 인스타그램에 업로드하는 이미지 개수가 18억개가 있다. 이를 1년 단위로 계산하면 6570억개"라며, "반면 이미지넷 데이터세트는 1200만개 수준"이라고 말했다.

연간 수천억개의 이미지 데이터가 쏟아지는데, 레이블링된 데이터의 수는 1000만개 수준.

정 교수는 레이블링에 쓰이는 비용이 많이 들기 때문에 이미지넷의 데이터는 적을 수밖에 없다고 설명했다. 그는 레이블이 안 된 매년 쏟아지는 수천억개의 데이터를 활용하면 정말 놀라운 인공지능 발전, 딥러닝의 발전이 이뤄질 수 있다고 덧붙였다.

◆"자기지도학습은 Filling In the Blank"

기존의 지도학습은 데이터를 바탕으로 사람이 지정해 준 레이블이 결과로 나오도록 CNN(합성곱신경망)을 학습해, 학습된 CNN을 인식에 활용하는 것이다.

반면 자기지도학습은 데이터가 들어가면 결과값도 데이터라는 것이다. 다만 데이터는 주입된 데이터에서 뽑은 유의미한 결과인 셈. 이 데이터는 사람이 주는 것이 아니라 인풋 데이터에서 CNN이 자동 추출하는 값이다.

지도학습과 자기지도학습의 차이 (자료=정희철 교수)
지도학습과 자기지도학습의 차이 (자료=정희철 교수)

그는 "그래서 자기지도학습은 'Filling In the Blank'(공백을 메우는 것)라고 할 수도 있다"고 설명했다. 

"예를 들어 비디오가 있으면 과거 프레임에서 미래를 예측하는 딥러닝 알고리즘을 만들 수 있다. CNN을 학습할 수 있다는 것.

전체 비디오가 있기 때문에 과거 프레임을 받아서 미래가 결과값으로 출력하는 데는 '주석을 다는'(Annotation, 라벨링) 비용이 발생하지 않는다. 

또 이미지를 가리고(masking), 가려진 이미지를 다시 복원하도록 학습하는 것도 가능하다. 어떤 가려진 부분에 대한 예측(Prediction)에 이용해 CNN을 자동으로 학습할 수 있다.

자기지도학습의 기본 개념은 뭔가 빠진 부분을 메우자(Filling In the Blank)라고 보면 된다"

얀 르쿤 교수가 설명한 자기지도학습(이미지=얀 르쿤)
얀 르쿤 교수가 설명한 자기지도학습(이미지=얀 르쿤)

정 교수에 따르면 자연어처리(NLP)에서는 자기지도학습이 쉽게 할 수 있다. 인터넷에서 문장은 위키피디아에서 쉽게 가져올 수 있다. 문장에서 일부러 임의의 단어를 빼준다. 

빠진 문장에서 완전한 문장을 만드는 방법을 만드는 학습하면, 이런 값들을 통해 NLP 태스크에 활용하면 적은 라벨링 비용으로도 좋은 성능의 인식기를 얻을 수 있다.

이미지 인식에서는 이미지 일부를 가리고(making), 가려진 부분을 복원하는 방식으로 비슷한 방법을 사용할 수 있다. 하지만 이런 방법은 실제로 잘 동작하지 않는다.

NLP에서는 공간에 무엇이 들어갈지 쉽게 예측할 수 있지만, 이미지나 비디오에서는 다음 프레임에 뭔가 나올지에 대한 값이 '엄청나게 많은 가능성'이 있기 때문이다.

◆이미지 인식을 위한 자기지도학습 알고리즘

이에 정 교수는 이미지 인식을 위해 개발한 자기지도학습 알고리즘을 소개했다.

오토인코더 기법(사진=정희철 교수 강연)
오토인코더 기법(사진=정희철 교수 강연)

▲오토인코더(Autoencoder), 2006년 
- 오토인코더는 이미지를 압축시키고, 다시 이를 바탕으로 원래 이미지로 변환해주는 모델이다. 

여기도 레이블은 따로 없다. 이렇게 학습시킨 방법으로 활용할 수 있다. 

이와 비슷한 것으로 디노이징(Denosising) 오토인코더도 있다. 이는 원본 이미지에 노이즈를 입힌 다음에 다시 복원하는 방법이다. 

렐러티브 포지셔닝(사진=정희철 교수 강연)
렐러티브 포지셔닝(사진=정희철 교수 강연)

▲렐러티브 포지셔닝(Relative Positioning), 2015년
- CNN이 고정됐다. 센터 이미지가 레퍼런스로 한장 들어간다. 그러면 주변의 8개의 위치에서 랜덤으로 하나를 선택해 하나의 이미지를 넣었을 때, 최종적으로 아웃풋의 결과를 위치에 따라 '자동'으로 레이블할 수 있다.

기준점으로부터 상대적인 위치를 학습하도록 만든 것. 

CNN이 이를 맞추기 위해서는 센터에 대한 상대적인 위치를 파악해야 한다. 얼굴이 가운데면 아래는 다리, 뒤쪽에 꼬리가 있어야 한다는 것을 배울 수 있다.

파스칼 VOC 검출에서 렐러티브 포지셔닝 기법을 썼을 때 51.1%를 기록했다. 이미지넷 레이블 모델 학습 결과가 56.8%, 사전 학습 없었을 때 45.6%가 나왔다.

정 교수는 "이미지넷의 레이블링 데이터보다는 당연히 안 좋다"며 "이는 1200만개의 이미지넷 데이터를 바탕으로 추론한 결과"라고 말했다. 

그는 "인터넷에는 매일매일 10억개 이상의 이미지 업로드가 이뤄진다. 이런 이미지를 가지고 렐러티브 포지셔닝 학습기법을 적용한다"며, "10억개 이상의 이미지를 사용하면 이미지넷 이상의 결과를 얻을 수 있을 것으로 생각한다"고 전했다.

직소퍼즐 (사진=정희철 교수 강연)
직소퍼즐 (사진=정희철 교수 강연)

▲직소 퍼즐, 2016년
직소 퍼즐을 푸는 것도 렐러티브 포지션과 비슷하다. 3x3으로 이미지 일부를 자르고 섞어 이를 원래 포지션으로 돌아가는 법을 학습하는 것이다.

컬러라이제이션 (사진=정희철 교수 강연)
컬러라이제이션 (사진=정희철 교수 강연)

▲컬러라이제이션(colorization), 2016년
대부분의 이미지는 컬러다. 이를 흑백으로 변환하는 것은 쉽다. 컬러를 흑백으로 변환하고 흑백 이미지를 CNN에 입력, 다시 컬러 이미지가 나오도록 아웃풋을 설정한다.

러닝 투 카운트(사진=정희철 교수 강연)
러닝 투 카운트(사진=정희철 교수 강연)

▲Learning to Count, 2017년
이미지를 2X2로 나눈다. 나눠진 이미지에서 눈, 코, 머리 등의 개수를 카운팅 할 수 있다. 개별 개산의 합과 전체의 합은 동일하다고 가정할 수 있다.

각각 나눠진 이미지의 값을 가지고 추론을 수행해 그 값을 합친다. 이를 전체 이미지를 넣었을 때 값이 동일하도록 학습한다.

이미지 트랜스포메이션(사진=정희철 교수 강연)
이미지 트랜스포메이션(사진=정희철 교수 강연)

▲이미지 트랜스포메이션, ICLR 2018
사람이 사진을 찍을 때 대부분 정방향으로 돌려서 놓는다. 이를 기울이지는 않는다. 인터넷에 올라온 사진을 0˚로 가정하고 90˚, 180˚, -90˚ 등 임의로 돌린 다음에 이를 레이블로 준다.

논문을 발표한 저자들은 이를 바탕으로 돌렸더니 이미지넷과 비슷한 결과를 얻었다고 밝혔다. 

PIPL (사진=정희철 교수 강연)
PIPL (사진=정희철 교수 강연)

▲Pretext-Inaiant Representation Learnig(PIPL), 2019~2020
최근 기법 중 하나로, 이미지 원본과 변형된 이미지가 하이레벨에서는 오브젝트 속성이 변하지 않는다는 것을 이용하는 방법이다.

오리지널 이미지를 CNN에 넣고, 변형한 이미지를 CNN에 넣어 여기서 나온 결과가 비슷하게 만들어지도록 학습하는 방법이다.

SimCLR (사진=정희철 교수 강연)
SimCLR (사진=정희철 교수 강연)

▲SimCLR, 제프리 힌튼 2020
2020년 제프리 힌튼 교수가 개발한 기법이다. SimCLR 기법도 PIPL과 비슷하다.

한장의 이미지를 각각 두번의 데이터 증강(Data Augmentation, 데이터를 수집하지 않고 다양성을 늘리는 방법)을 통해, 서로 다른 시점의 이미지 두 장을 생성한다.

CNN(인코더)으로 결과를 계산하고, 이를 프로젝션 헤드를 통해 나온 최종 값과 서로 비슷해지도록 학습하는 것이다.

단 하나의 이미지에서 같은 부분은 비슷하게 하지만 서로 다른 부분은 멀어지도록 학습한다.

그 결과 이미지넷 지도학습 결과와 비교했을 때 동일한 데이터에서는 성능이 떨어졌지만, 데이터의 양을 훨씬 늘리니까 지도학습과 유사한 성능을 보였다.

정 교수는 "현재까지는 사람의 노력이 많이 필요했지만 이제는 인터넷의 수천억개 단위의 이미지를 이용할 수 있다. 앞으로는 이용해야 한다"며 자기지도학습의 중요성을 강조했다.

미니인터뷰(Mini-Interview)

정희철 경북대 인공지능학과 교수
정희철 경북대 인공지능학과 교수

◆금일 강연의 핵심 내용은 무엇인가?

딥러닝 알고리즘은 수많은 레이블이 있는 데이터가 있는 경우에 놀라운 인식률을 보이고 있습니다. 하지만 레이블은 사람이 직접 주석을 달아야 하기 때문에 그 비용이 만만치 않다.

개인적으로 딥러닝 혹은 AI 알고리즘을 개발할 경우에 사람의 노력을 최소화하고자 하는 목표가 있다
.
강연에서 말한 자기지도학습의 경우 이런 사람의 비용을 줄이기 위한 연구다. 강연에서는 자기지도학습의 개념 및 최근 동향에 대해서 다뤘다.

◆지도학습과 자기 지도학습을 간단히 설명하면?

지도학습은 라벨이 있는 데이터를 학습하는 것이며, 자기지도학습의 경우에는 라벨이 없는 데이터로부터 의미있는 재현(representation)을 학습하는 방식이라고 보면 된다.

자기지도학습은 딥러닝 학습을 위해 인터넷에 공개된 수많은 레이블 없는 이미지와 타깃 도메인의 약간의 레이블 데이터만 있으면 되니 비용이 줄어드는 이점이 있다.

◆NLP보다 이미지 인식에서 자기지도학습의 효과가 떨어지는 이유는?

NLP에 비해 이미지나 비디오의 경우 고차원의 데이터를 다루다 보니, 더욱 복잡하고 빈 공간(blank)에 대한 예측이 어렵게 된다고 생각한다.

◆다양한 자기지도학습 기법을 하나의 모델에 넣으면 더 효과가 좋아지지 않나?

다양한 기법을 하나의 모델에 넣으면 좋아질 개연성은 있으며, 실제로 그러한 시도들이 있다. 대표적으로 다음과 같은 논문이 있다.
Doersch, C., & Zisserman, A. (2017). Multi-task self-supervised visual learning. In Proceedings of the IEEE International Conference on Computer Vision (pp. 2051-2060).

◆연구를 진행하면서 가장 어려운 점은?

급변하는 기술 속도. 불과 몇 주만에도 굵직굵직한 연구 결과들이 나오고 있다.

◆자기지도학습으로 '충분한 AI'가 가능할까?

자기지도학습은 여러 AI 기술들 중 하나다. 충분한 AI의 정의가 애매하지만, 이를 위해서는 여러각도에서 해석하고 다양한 AI 기술들이 발전해야 한다. 

 
정희철 경북대 인공지능학과 교수

 

AI타임스 양대규 기자 yangdae@aitimes.com

[관련기사] 'AI 대부' 요슈아 벤지오·얀 르쿤은 삼성 AI 포럼에서 무슨 말을 했나?

[관련기사] "가상환경과 현실환경 달라, AI 실제 적용 어려워"…최종원 중앙대 첨단영상대학원 교수

취재노트
▲정희철 교수의 한마디…"AI 빈부격차가 해소돼야"

개인적인 연구 배경에 대해 설명하자면

산업현장에 실제 딥러닝을 적용을 하려면, 데이터의 질과 양이 매우 중요하다.
데이터 구축 가이드라인을 주더라도 누가 주석을 달았는지에 따라, (주관적 판단의 개입으로 인해) 데이터의 레이블이 달라질 수가 있다.

수많은 데이터에 주석을 달아야 하기 때문에 작업자의 피로도는 쌓여 휴먼 에러가 발생하기도 한다.

이러한 이슈들 때문에 산업현장에서 AI 엔지니어들은 딥러닝의 알고리즘을 통한 성능 향상에 집중을 못 하고, 어떻게 어떤 전략으로 데이터를 모을까에 대한 고민을 더 하게 된다.

그리고 이런 것들이 모두 비용과 연결되기 때문에 데이터에 대한 빈부격차도 생길 수가 있다고 생각한다.

안 그래도 딥러닝을 하려면 고가의 GPU 서버가 필요하다.

미래의 AI에서는 이런 빈부격차가 해소돼야 한다고 생각한다.
키워드 관련기사
  • "VR, 자유도 높은 6DoF 압축기술 도입해야"…류은석 성균관대 교수
  • [AI논단] 인공지능과 디지털 전환
  • [글로벌 Lab 젊은 과학자] "향후 10년 컴퓨터 비전 분야 비약적인 변화 보일 것"....미 캘리포니아대 이용재 교수