[AI LAB 탐방] 비전&학습 연구실: 서울대 김건희 교수, "초거대 AI 다음 과제인 멀티모달, 우리가 담당"

서울대 코어 AI 논문 5분의 1은 김건희 교수랩에서 나와
비전부터 자연어, 기계학습까지 연구 분야 다양...멀티모달에 집중
요즘 연구실 핵심 정책은 ‘코워크’...MS, 엔비디아부터 삼성, 네이버, 현대차까지

편집자 주

AI 연구ㆍ개발은 AI 핵심(AI 아키텍처)과 응용(X+AI)으로 대별하기도 하고, 컴퓨터 비전과 자연어 처리 등으로 구분하기도 한다. 또, 의료분야나 유통분야 등 AI 접목 산업별로 나누기도 한다. 같은 AI대학(원)에 속하더라도 개별 연구실이 어떤 주제를 어떤 방식으로 접근할 것인지는 천차만별이다.

AI타임스는 각 연구실에서 어떤 연구 주제를 어떤 방식으로 접근하고 있는지 한 걸음 더 가까이 다가가 살펴보기로 했다. 프로젝트별 세부 현황을 공개, 공유함으로써 AI 연구 기반 구축과 활성화를 기대하면서...

◇특별취재팀=팀장 권영민, 박혜섭ㆍ박유빈ㆍ정윤아ㆍ박성은 기자

서울대가 한 해 국제학술대회에 발표하는 코어(Core) 인공지능(AI) 논문은 약 50편에 이른다. 이 중에서도 서울대 특기라 할 수 있는 비전 분야 논문이 상당수다.

김건희 교수가 2015년 서울대에 부임하며 세운 ‘비전&학습 연구실(Vision&Learning Laboratory)’은 서울대 내 대표적인 비전 분야 랩(Lab) 중 하나다. 특히 영향력 있는 AI 논문을 다작하는 것으로 유명하다.

이 연구실에서 나온 AI 국제학술대회 채택 논문은 1년에 평균 10편을 넘어간다. 올해는 아직 3분의 2 정도만 지났음에도 15개 논문을 국제 학회에 발표한 상황이다. 서울대 전체 코어 AI 논문 중 약 5분의 1을 담당한다고 볼 수 있겠다.

연구 분야도 비전에 한정되지 않는다. 비전과 함께 자연어처리가 핵심 연구 주제다. 연구실 이름에서 알 수 있듯이 강화학습, 표현학습과 같은 기계학습(ML) 연구까지 포괄한다.

상이하다고 볼 수도 있는 비전과 자연어처리를 함께 연구하는 이유는 시각과 언어 정보를 함께 활용하는 멀티모달(Multi-Modal) AI를 개발하기 위해서다.

대표적인 차세대 AI 모습 중 하나인 멀티모달 AI는 그리 멀지 않은 미래이자 필연적으로 등장할 기술이다. 최근 우리는 넷상에서도 음성, 텍스트, 영상 등 다양한 소통 방법을 함께 사용하고 있다.

유튜브 시청 행태만 살펴봐도 단순히 영상을 시청하는 것을 넘어선다. ASMR과 같은 음성 위주 콘텐츠도 있으며 자막과 댓글만 즐기는 경우도 많다. 메타버스 시대가 본격화되면 더 말할 것도 없겠다.

이렇듯 인간이 다양한 방식으로 소통한다면 인간을 모방하는 AI도 비슷한 형태로 발전할 수밖에 없다. AI 기술 자체가 발전한 것도 멀티모달 연구를 앞당겼다는 설명이다. 이전에는 비전과 자연어 분야에 사용하는 AI 모델이 각기 달랐다면 요즘은 비슷한 모델을 사용하는 추세다.

국내 대표적인 멀티모달 연구로는 네이버 초거대 AI 프로젝트를 꼽을 수 있다. 네이버는 자사 초거대 AI 모델 ‘하이퍼클로바’의 다음 목표로 멀티모달 AI를 언급한 바 있다. 네이버-서울대 공동 AI 연구센터에서 해당 연구를 리드하는 것이 김건희 교수 역할이다.

멀티모달 AI를 비롯해 다양한 분야를 연구 주제로 포괄하는 만큼 연구실 내 연구원들도 많다. 현재 김건희 교수랩 소속 학생은 박사과정 12명, 석사과정 8명이다. 박사 졸업 학생은 2명이며 모두 미국에서 활약하고 있다.

많은 논문과 많은 연구원. 비결은 단순하다. 김건희 교수 자신과 연구원들이 꼽는 김 교수 랩 장점은 효율성과 자율성이다. 연구원 개인이 원하는 연구를 맘껏 할 수 있도록 지원한다. 연구에 도움이 되지 않는 일은 과감하게 제외한다. 성과는 엄격히 따져 프리라이더는 용납하지 않는다.

군더더기 없이 핵심만 필요한 정도로 설명하는 자세. 인터뷰로 만난 김건희 교수도 비슷한 느낌이었다.

다음은 김건희 교수와의 일문일답.

◆연구실에 대한 간단한 소개 부탁드린다.

2015년 서울대에 부임하면서부터 비전&학습 연구실을 시작했다. 귀국 전에는 미국 카네기멜론대에서 박사를 마치고 디즈니연구소에서 박사 후 연구원을 지냈다.

우리 연구실은 AI 분야 중 컴퓨터비전, 기계학습, 자연어처리를 주로 연구한다. 현재 박사과정 12명, 석사과정 8명 학생으로 구성되어 있다. 박사 졸업생 2명은 현재 미국에서 연구를 이어가고 있고 석사 후 유학을 간 학생들도 많다.

현재 연구실 내에서 수행 중인 연구는 360도 동영상을 해석하는 연구, 여러 지식을 잘 활용하고 사람의 감정을 이해하는 대화 모델, 온라인 상의 다양한 정보(동영상, 사진, 텍스트, 음성, 이모티콘 등)를 동시에 이해하고 생성하는 연구 등을 예로 들 수 있다.

특히 시각 정보와 자연어 정보를 동시에 이해하는 AI 연구를 많이 하고 있다. 예를 들어 동영상에는 영상 정보, 음성 정보, 주변 텍스트 정보 등이 같이 존재하는데 이들을 모두 이용한 딥러닝 표현 학습을 연구한다.

◆서울대 내에서도 논문을 많이 내는 것으로 유명하다. 1년에 보통 몇 편 논문을 국제학술대회에 발표하나?

우리 연구실이 생긴지 5, 6년 정도가 됐는데 매년 조금씩 다르지만 평균적으로 10편 이상은 낸다. 최근 학생 인원이 많이 늘어난 만큼 논문수도 더 늘어날 것으로 예상한다.

2020년 우리 연구실에서는 EMNLP에 1편, ECCV에 4편, ICLR에 2편, 총 7편 논문을 발표했다. 올해는 8월 기준으로 ICCV 4편, ICML 2편, NAACL 1편, CVPR 2편, ICLR 4편, AAAI 2편 논문이 채택됐다.

◆주요 연구 주제로 시각과 자연어 정보를 동시에 이해하는 멀티모달 AI를 꼽았다. 해당 주제를 다루는 국내 연구소가 몇 곳 없을 것 같은데?

이전에는 거의 없었다면 최근에는 우리 연구실 외에도 몇 곳이 있다. 두 개 분야에 사용하는 AI 기술이 달랐을 때는 같이하는 경우가 드물었다. 딥러닝 발전으로 비전과 자연어에 쓰는 AI 테크닉과 모델이 많이 비슷해지면서 두 개 분야를 같이 연구하는 것이 이제 수월해졌다. 결국 시각 정보를 언어로도 표현하는 경우가 많기 때문에 AI 연구 측면에서도 둘을 같이 다뤄야 한다는 컨센서스가 있는 것 같다.

비전과 자연어 이외에도 비전과 로보틱스를 함께 연구하는 등 AI 연구에서 다양한 분야를 통합해서 다루는 사례가 최근 늘어나고 있다.

◆시각과 자연어 정보를 함께 활용하는 AI가 왜 필요할까?

요즘 인터넷 사용 행태 대부분을 차지하는 동영상을 예로 들어보자. 유튜브 사용자들은 한 VJ 방송을 볼 때 VJ가 하는 얘기를 듣고 텍스트도 이해해야 한다. 영상, 음성 이외 댓글만 보러 가는 사람들도 많다. 이전에는 텍스트 혹은 음성 한 가지 방식만으로 소통했지만 이제는 대화라는 것이 다양한 모달리티 형태로 변화하고 있다. 텍스트를 보냈는데 음성이나 사진, 동영상 메시지로 답할 수 있는 것이다.

인간 소통에 있어 시각 정보와 언어는 필수 요소다. 사람이 상황을 인지하는데 사용하는 정보 70%는 시각정보다. 인간 뇌 진화도 시각인지에 집중해서 이뤄졌다. 시력 자체는 독수리가 좋겠지만 사람은 사진 한 장을 보고 10~20분을 이야기할 수 있다. 인간 사고에 중요한 영향을 미치는 것으로 언어도 빼놓을 수 없다. AI는 사람이 하듯이 모방할 수밖에 없다. 언어와 시각 AI를 같이해야 하는 이유다.

◆연구실 소속 연구원들 모두가 비전과 자연어처리를 함께 사용하는 AI 연구를 하나?

꼭 그렇진 않다. 비전과 자연어 중 한 쪽만 하고 싶어서 오는 학생들도 있다. 혹은 기계학습 연구를 더 좋아하는 경우도 있다. 연구원들 각각의 연구 주제가 다르지만 접점을 찾아 협업하기도 한다. 컴퓨터비전, 자연어처리도 결국 기계학습으로 하는 것이니 함께 할 수 있는 일이 있다.

◆코워크(Cowork), 특히 기업과의 공동 연구를 최근 연구실 핵심 방향으로 꼽았는데?

맞다. 처음 연구실을 세운 시기에는 스스로 좋은 논문을 쓸 수 있는 자체 역량을 키우기 위해 우리 연구실 인원으로만 연구를 진행했다. 우리끼리 해도 충분히 좋은 학회에 논문을 많이 낼 수 있다는 것을 보여주는데 집중했다. 이제는 연구실도 어느 정도 셋업됐고 졸업생도 배출했기에 전략을 바꿨다. 특히 글로벌 빅테크와 함께 연구하면 서울대 명성에도 도움이 된다.

글로벌 빅테크와 함께한 성과로는 MS, 엔비디아 연구진과 공동 연구해 ICLR 2021에 발표한 ‘비디오 표현학습을 위한 파라미터 효율적 멀티모달 트랜스포머(Parameter Efficient Multimodal Transformers for Video Representation Learning)’ 논문을 꼽을 수 있다. 해당 연구에서는 수많은 동영상 데이터로부터 영상, 음성, 자연어 정보의 상관 관계를 AI 모델이 스스로 배울 수 있도록 해 사람 레이블 없이 더 높은 인식 성능을 달성했다. 또한 딥러닝 모델 크기를 줄여 적은 자원으로 우수한 성능을 얻었다.

◆국내 기업과의 협업 상황도 궁금하다.

국내에서는 현대차 AI 컨소시엄과 함께 진행한 과제로 ICCV 2021에 2편 논문이 채택됐다. 삼성전자 NPRC와도 공동 연구를 진행하고 있다. 초거대 AI 연구를 위해 네이버와 함께 세운 ‘네이버 하이퍼스케일 AI 센터’도 대표적인 예시다.

요즘 가장 주목받는 분야 중 하나가 AI 초거대 언어모델을 활용한 연구다. GPT-3를 통해 자연어 처리에서는 좋은 성능을 보였는데 이것을 멀티모달하게 바꾸는 것이 다음 과제다. 우리연구실은 네이버 초거대 AI 모델을 멀티모달하게 개선하는 연구를 담당한다.

삼성전자가 지원하는 ‘삼성미래기술육성사업’에서는 AI 윤리 문제를 개선할 수 있는 기술을 개발 중이다. AI의 개인정보 유출, 잘못된 정보 전달, 사회 규범에 어긋난 행동 등을 막는 것이 목표다.

특히 초대규모 언어모델의 경우 엄청나게 많은 데이터를 계속해서 학습하는 만큼 문제가 발생할 가능성이 높다. 성별, 인종 편향을 포함한 결과를 제시하는 경우가 많은데 이는 데이터에 존재하는 편향을 그대로 학습했기 때문이다.

이러한 문제들은 학습 데이터 편향을 완화함으로써 개선할 수 있다. 미국 백인 의사 데이터가 많은 경우 인종을 흑인으로 바꾸고 지역을 저개발국가로 바꾸면 편향을 줄일 수 있다. 개인정보의 경우에도 '김건희 서울대 컴퓨터공학과 교수'라는 정보에서 서울대라는 소속과 교수라는 직업을 다른 것으로 랜덤하게 바꾸면 정보 유출을 막을 수 있다. 이는 테크닉 중 하나일 뿐이며 이외 여러 방식이 있다.

서울대-네이버 협약식에 참석한 (왼쪽부터)하정우 AI LAB 소장, 최인혁 네이버 COO, 정석근 클로바 CIC 대표. 모니터 내 서울대 AI 연구원 함종민 산학협력센터장, 장병탁 원장, 전병곤 부원장.(사진=네이버, 서울대)

◆다양한 연구 논문이 많이 나오게 된 것은 많은 연구원을 보유한 덕분이라고도 할 수 있겠다. 많은 학생들을 모은 비결은 무엇일까?

우리 연구실에서 가장 중시하는 것 중 하나는 효율성이다. 효율적이지 않은, 괜히 시간만 쓰는 것 같은 업무는 지양한다. 이에 대한 학생들 의견도 적극 받아들인다. 학생들이 연구 이외 다른 업무에 시간을 뺏기는 것을 막기 위해서다. 요즘 같은 상황에서는 학생들보고 연구실에 출근해라고 하는 경우도 거의 없다.

다른 특징은 자율성이다. 학생 개인이 관심있는 분야 연구를 마음껏 할 수 있도록 지원한다. 이건 학생 성향에 따라 다르게 받아들일 수도 있겠다. 문제제기 단계부터 알아서 잘 하는 할생들이 있는가 하면 가이드를 많이 줘야 잘 하는 경우도 있기 때문이다. 처음에 어려움을 느끼는 학생들은 고년차와 함께 연구하며 배우는 것부터 시작한다. 고년차 학생이 하는 대로 하다가 후에 독립하는 식이다.

이외 학생들이 좋아할 만한 점이라면 프리라이더를 최소화하는 것을 꼽을 수 있겠다. 논문 저자를 넣을 때 굉장히 신중히 결정한다. 정말 큰 기여를 해서 이 사람이 없었으면 논문을 못 썼다고 할 수 있는 경우에만 저자에 포함한다.

비전&학습 연구실 연구원 인터뷰

AI타임스는 김건희 교수의 비전&학습 연구실에서 연구 중인 김병창, 이상호, 김재겸 연구원과 인터뷰를 가졌다.

김병창 연구원은 석박통합과정 6년차로 3명 연구원 중 김건희 교수랩을 가장 오래 경험했다. 2015년 김 교수가 부임 시 연 컴퓨터비전 수업을 듣고 AI 기술에 흥미를 가지게 되어 연구실에 들어왔다. 현재 자연어처리와 대화시스템을 주로 연구하고 있다.

이상호 연구원 역시 2015년 김 교수 부임 시절부터 AI 연구에 관심을 가지게 됐다. 석박통합과정 5년차로 표현학습을 연구 중인 이 연구원은 당시 김건희 교수의 연구논문들을 접하면서 연구실 일원이 되기로 결정했다.

김재겸 연구원은 강화학습 전공하는 석박통합과정 4학년생이다. 김병찬 연구원 소개로 김건희 교수 연구실에 관심을 가지게 됐다. 특히 연구 자율도가 높다는 장점을 보고 합류했다고 한다.

(왼쪽부터)김건희 교수, 김병창 연구원, 김재겸 연구원, 이상호 연구원(사진=박성은 기자)

◆현재 진행 중인 프로젝트를 각자 소개하자면?

김병창 연구원: 최근 대화시스템에 특화된 팩트체크시스템을 만드는데 주력하고 있다. 뉴스나 논문을 대상으로 하는 시스템은 기존에 있지만 대화시스템을 대상으로 하는 것은 아직 없는 상황이다. 대화시스템이 사실이 아닌 정보를 말하는 경우를 포착하는 AI 기술을 개발한다. 삼성과 같이 진행하는 프로젝트 중 하나다.

이상호 연구원: 원래 MS 인턴을 지내기로 되어있었는데 코로나19 유행으로 취소되면서 국내에서 연구를 진행하고 있다. 주로 표현학습을 연구한다. 컴퓨터는 리얼 월드(Real World)를 받아들일 때 그대로 받아들이는 것이 아니라 숫자값 변환 과정을 거친다. 이 때 필수적인 부분만 잘 골라서 좋은 숫자값으로 변환하는 것을 표현학습이라 한다. MS과의 협업 프로젝트로는 양질의 데이터를 대용량으로 큐레이션하는 알고리즘 연구를 진행했다.

김재겸 연구원: 강화학습 연구를 주로 진행하고 있다. 강화학습 AI가 새로운 환경이 주어졌을 때 제대로 작동할 수 있는 기술을 개발한다. 새로운 환경, 노이즈가 많은 환경 등 강화학습 AI가 학습 단계에서 미리 예측할 수 없는 부분에 대해 로버스트(Robust)하게 학습할 수 있는 방법을 연구하는 중이다.

◆연구 주제는 언제부터 정했나? 연구실 들어오기 전부터 관심 분야가 정해져 있었는지?

우리가 연구실에 들어올 때만 해도 이쪽 분야 교수님과 학생들이 이렇게 많지 않았다. 연구실에 들어와서 학계 현황을 접하고 논문 서베이(Survey)를 하면서 괜찮은 주제를 찾았다.

◆최근 연구실 멤버가 많이 늘었다고 들었다. 고학년차로서 어떻게 느끼나?

새로 들어오는 친구들이 열의가 넘친다. 대학원 생활을 오래 하다보면 지칠 때가 있는데 에너지를 얻곤 한다. 사실 코로나19가 유행하면서부터는 연구실에 나오지 않고 재택을 하다보니 만날 기회가 많지 않다.

◆코로나19 유행 이전과 비교했을 때 연구실 생활이 많이 달려졌나?

사실 컴퓨터로 하는 일이기 때문에 연구환경은 많이 달라진 게 없다. 아쉬운 점이 있다면 코웍을 하거나 토론으로 아이디어를 얻는 경우가 줄어들었다. 연구원 개개인마다 연구 주제가 다양해 토론하면서 아이디어를 얻는 경우가 있었는데 지금은 텍스트로만 의견을 주고받는 경우가 많아 한계가 있다.

국제학술대회에 오프라인으로 참석하지 못하는 것이 가장 아쉽다. 학회에 가면 잡서치(Job Search) 도움을 많이 받을 수 있는데 내년에 졸업하는 연구원들은 아쉬움을 느낄 수밖에 없는 부분이다.