LK(Language&Knowledge)연구소, LGㆍKTㆍ네이버ㆍ카카오 등 기업들과 산학연
100% 클라우드 기반으로 연구실 운영, 기존 컴퓨터 장비 구매 방식에서 탈피
목표 지향적 연구실, 연구비 사용과 출퇴근 자유로운 연구

편집자 주


AI 연구ㆍ개발은 AI 핵심(AI 아키텍처)과 응용(X+AI)으로 대별 하기도 하고, 컴퓨터 비전과 자연어 처리 등으로 구분하기도 한다. 또, 의료분야나 유통분야 등 AI 접목 산업별로 나누기도 한다. 같은 AI대학(원)에 속하더라도 개별 연구실이 어떤 주제를 어떤 방식으로 접근할 것인지는 천차만별.

AI타임스는 각 연구실에 한 걸음 더 가까이 다가가 살펴보기로 했다. 프로젝트별 세부 현황을 공개, 공유함으로써 AI 연구 기반 구축과 활성화를 기대하면서...

◇특별취재팀=팀장 권영민, 박혜섭ㆍ박유빈ㆍ정윤아 기자

자연어 처리는 언어를 소통의 매체로 본다. 매체는 무언가를 담을 수 있다. 인류가 발견한 효율적 매체 중 하나인 언어는 지식을 담는다.

카이스트 AI대학원 서민준 교수가 올해 1월 개설한 LK(Language&Knowledge) 연구소는 NLP(Natural Language Processing)를 중점적으로 연구하며 지식이 언어를 통해 전달되는 과정을 관찰한다. 

(사진=카이스트 서민준 교수 제공)
(사진=카이스트 서민준 교수 제공)

인공지능은 사람이 할 수 있는 일을 자동화하는 것이다. LK 연구소는 어디에 있을지 모르는 지식을 사용자의 요구에 맞게 잘 찾을 수 있는 방법을 연구한다. 사람들도 지식을 찾을 수 있지만 컴퓨터처럼 빠르게 몇 초내에 찾을 수는 없다. AI는 광범위한 웹 속에서 원하는 정보를 실시간으로 찾을 수 있다.

또, 접근한 지식을 바탕으로 새로운 지식 창출 방법을 모색한다. 좁은 의미의 지식 관점에서 인공지능이 도메인의 지식을 바탕으로 상황적 맥락 속에서 사용자에게 정보를 제공할 수 있도록 한다. LK 연구소의 궁극적 목표는 AI가 과학적 지식까지 창출해낼 수 있는 수준까지 올리는 것이다.

서 교수는 2012년 박사 과정 중 자연어 처리(NLP)와 비전 AI에 관심을 가졌다. 당시 미국은 갓 AI에 관심을 기울이기 시작했고 알파고도 있기 전이었다. 한국은 인공지능에 대한 관심도가 낮았고 자연어 처리에 대한 관심은 더욱 없었다. 제조업 중심인 한국 산업 특성상 비전 AI 분야에 쏠려 있었다. 주로 검색 엔진 기업이 NLP를 다뤘다.

한 연구 분야로의 쏠림은 특정 연구가 소홀해지는 결과를 만든다. 한 번 벌어진 연구 분야 간 격차는 계속 벌어질 수밖에 없으며 일정 수준을 넘으면 더이상 돌이킬 수 없게 된다.

당시 NLP 학회에 참여한 서 교수는 자신을 제외하고 한국 사람을 볼 수 없었다. 국내 자연어 처리 연구의 필요성을 느낀 서 교수는 NLP를 중점적으로 연구하기 시작했다. 박사 과정 중 진행한 NLP 연구는 카이스트 LK 연구소로 이어졌다.

LK 연구소 소속 연구원은 총 9명으로 ▶직장 생활 중 대학원 진학생(3명) ▶석사 과정생(5명) ▶박사 과정생(1명)이 있다. 카이스트 AI 대학원 특성상 석박 통합 과정 정원은 적으며 석사 정원은 많다. 학생 입장에서 박사 과정까지 장기간 연구하는 것이 부담이 되기 때문이다. 서민준 교수를 주축으로 한 LK 연구소는 ▶LG ▶KT ▶네이버 ▶카카오 등 국내 주요 기업들과 활발히 산학연을 맺으며 NLP 연구를 진행하고 있다.

다음은 서 교수와의 일문일답이다.

◆ 연구 중이신 자연어 처리 분야에서 인공지능의 언어 지능 수준은 어느 정도인가요?

인공지능이 잘하는 것이 있고 못하는 것이 있습니다. 예를 들어 구글 검색의 경우 몇 천억 개의 정보를 단 몇 초 만에 찾아냅니다. 이는 사람이 일일이 정보를 찾는 것과 차원이 다른 속도죠. 도메인 내에서의 지식을 활용한 대화에서 인간과 AI의 언어 지능 수준은 거의 차이나지 않습니다. 

최근 2년 동안 자연어 처리를 포함해 AI 분야 연구가 활발히 이뤄져 많은 기술적 발전이 있었습니다. 2년 전 AI의 언어 수준이 말을 시작한 어린아이와 비슷하다면, 지금은 7살 정도의 아이가 이야기하는 것과 비슷하다고 볼 수 있습니다.  9살부터 추론이 포함되기 때문에 인공지능과 사람이 구분됩니다.

◆ 올해 LK 연구소를 개설하는 동안의 장비 마련 과정이 궁금합니다.

현재 LK 연구실은 클라우드로만 운영이 됩니다. 100% 클라우드 기반으로 연구실 운영에는 장점이 있습니다. 물론 자산으로 컴퓨터를 구매하지 않고 사실상 대여하는 것이기 때문에 사는 것보다 비용이 비쌀 수 있다는 우려가 있습니다. 하지만 구매한 자산을 충분히 활용하지 못할 경우를 고려한다면 꼭 비용이 크다고 보기 어렵습니다.

예를 들어, 5억 원의 예산을 갖고 연구실을 개설한다면 구매할 수 있는 컴퓨터 수는 많아봐야 몇 십대입니다. 클라우드만 사용한다면 경우에 따라 1000만 원을 사용해 하루에 몇 십 대도 활용 가능합니다.

클라우드만 전적으로 이용하는 이 방식은 과도기이긴 합니다만 속도는 장비를 구매하는 것보다 빠를 수 있습니다. 또, 필요한 때에 따라 연구비를 활용할 수 있다는 장점이 있습니다.

100% 클라우드 운영 방식은 4년 전만 해도 GPU 클라우드가 충분히 발달하지 않아 시행하기 어려웠습니다. 지금은 그만한 기술 발전이 이뤄져 올해 연구실을 개설한 저는 이 방법을 시도해 볼 수 있게 되었습니다. 기존 연구실의 경우 이미 장비가 다 갖춰져 있기 때문에 시도하기 쉽지 않을 겁니다. 현재 시험 중인 이 방식이 잘 운영돼 국내에 확산됐으면 합니다.

◆ 연구실의 산학연 현황이 궁금합니다

주로 민간 기업과 연구 과제를 주로 진행 중입니다. 현재 사실 검증을 주제로 네이버와 연구를 하고 있습니다. 최근 가짜 뉴스가 급격히 늘어나 사실 검증을 통한 올바른 정보 제공이 중요해졌습니다.

기존 사실 검증은 정답이 있다는 가정 하에 정답과 대조해 사실 여부를 판단합니다. 하지만 사실을 정하는 것조차 편향일 수 있습니다. 사실도 파헤쳐 보면 누군가의 주장 및 의견입니다. 뉴스와 기사를 통해 알 수 있듯 사실로 보도된 정보도 종종 번복되곤 합니다. 따라서 사실을 하나로 단정 짓지 않고 근접할 수 있도록 인공지능이 판단하는 기술에 대해 연구합니다.

다음은 카카오와 진행 중인 AI 모델 운영 비용 감소 연구 프로젝트가 있습니다. 최근 네이버와 카카오 등 기업에서 초대형 언어 모델들을 활발히 개발하고 있습니다. 규모가 커진 만큼 운영비도 막대합니다. 저희 연구실은 이 운영비를 낮추기 위한 방법을 모색합니다.

기존의 운영비를 낮추는 방식은 모델을 깎아내는 방식입니다. 다른 방법으로 패러다임을 전환해 비용을 줄이는 방법이 있습니다. 후자는 위험이 크지만 성공한다면 획기적이며 효과도 큽니다. 또, 비용 감소는 기술 접근을 용이하게 해 AI 언어 모델의 민주화에 기여합니다.

◆ LK 연구소 만의 특징은 무엇인가요?

장비 마련 과정에서 설명 드렸듯 저희 연구소는 100% 클라우드 방식으로 운영되고 있습니다. 

두 번째로 연구 프로젝트는 예산에 기반해 진행합니다. 각 프로젝트마다 예산이 주어지면 학생들은 주어진 예산 안에서 자유롭게 활용할 수 있습니다. 예를 들어, 컴퓨터 구매나 데이터 라벨링을 목적으로 인력 고용이 필요한 경우 연구원은 예산을 사용할 수 있습니다.

LK 연구소는 NLP를 중점적으로 연구하는 곳으로 목표 지향성을 갖고 있습니다. 저를 포함한 연구원 모두가 동의하는 목표가 있고 그 목표를 향해 모두가 노력합니다. 목표 달성을 위해 기타 요소들은 수단으로 간주합니다. 연구비 사용과 출퇴근은 자유이며 기타 사항에 대해서도 큰 제약을 두지 않습니다. 

◆ 자연어 처리를 포함한 AI 분야 연구를 잘하기 위해 어떤 역량이 필요한가요? 

핵심(Core) AI는 자연어 처리, 비전, 강화 학습 등이 있습니다. AI+X는 핵심 인공지능을 활용해 특정 산업 분야 및 도메인에 적용하는 것입니다. 적용 분야로 ▶헬스케어 ▶법률 ▶의료 ▶패션 등이 있겠지요. 

많은 사람들이 핵심 인공지능 연구가 수학과 이론 연구만 하는 것으로 착각하는 경우가 많습니다. 실제로 LK 연구소를 포함해 핵심 인공지능 연구실은 AI+X에 적용될 수 있는 일반적인 이론을 배우는 것입니다. 수학과 이론 연구도 하지만 실험과 개발을 주로 합니다.

AI대학원에서 연구 활동을 잘하기 위해 개발은 필수입니다. 개발 즉, 컴퓨터 프로그래밍 실력 평가는 프로젝트 경험과 깃허브에서 유추합니다. 전공은 AI 대학원 진학에 크게 중요하지 않습니다. 컴퓨터 전공이 아니더라도 해당 전공과 동등한 실력이 있다는 것을 증명하면 됩니다. 온라인에 인공지능 강의와 자료들이 많습니다. 이를 적극 활용해 얼마나 열심히 공부했는지를 확인합니다.

수학은 개발만큼 높은 수준을 요구하지 않습니다. 수학 실력은 학점을 통해 평가합니다. 이공계열에서 어떤 전공을 들어도 수학을 잘하지 못하면 높은 학점을 받기 어렵다고 생각합니다. 수학을 잘하는 것과 높은 학점을 받는 부분이 맞닿아 있다고 보기 때문입니다. 공과대학 학부 과정에서 배우는 선형대수와 확률론 등에서 좋은 학점을 받을 실력이면 됩니다.

◆ LK 연구소의 향후 연구 목표는 무엇인가요?

LK 연구소의 연구 목표는 ESG(Environmental, Social, Governance; 환경ㆍ사회 지배구조)와 밀접하게 관련 있습니다. 우선 카카오와 함께 하고 있는 운영비 감소 연구를 통해 컴퓨터 사용으로 발생하는 전기료, 탄소 배출 감소로 환경 문제 개선에 도움이 될 수 있습니다.

사회적인 부분에서 올바른 지식이 사용자에게 전달될 수 있도록 보조하는 것을 목표로 합니다. 대화형 에이전트가 사람과 보다 비슷해질 수 있도록 노력하고 있습니다. 사람과 비슷하다는 것은 단순히 사람과 비슷하게 말하는 것을 포함해 사람만이 갖고 있는 고유한 특성을 가질 수 있도록 연구 중입니다. 

마지막으로 정부 차원에서 이루다 사태를 통해 알 수 있듯 대화형 에이전트는 사람을 보조하는 것 이상으로 사회에 큰 영향력을 갖고 있습니다. 기술이 고도화되면서 법률 제정을 포함해 신경 써야 하는 부분이 많습니다. 기술 개발뿐만 아니라 사회적 파급력을 고려해 AI를 연구하는 것이 중요합니다.

그리고 지식 제공 기능을 넘어 새로운 과학적 지식을 창출할 수 있는 지능을 갖춘 AI 모델을 개발하는 것이 LK 연구소의 최종 목표입니다.

AI타임스는 LK 연구소에서 연구 중인 양소희ㆍ최은비 연구원과 인터뷰를 가졌다. 양소희 연구원은 2년 반 동안 네이버 클로바에서 ML 리서치 엔지니어로 일했다. 그동안 서 교수 팀에서 AI 서비스 개발과 연구, 논문 작성을 하며 LK 연구소 지원을 결심했다. 평소 자연어 처리에 관심이 많았던 최은비 연구원은 논문을 통해 서 교수를 미리 알고 LK 연구소에 지원했다.

코로나19 영향으로 연구실 개설 이래 연구원 전원이 모인 적은 단 한 번도 없다. 두 연구원은 대면으로 한자리에 모일 수 없는 현실에 아쉬워했다. 대신 ▶주 1회 시행하는 랩 미팅 ▶논문 리딩 그룹(Reading Group) ▶기타 연구 미팅 ▶슬랙 메신저 등을 통해 연구원들은 활발히 교류하고 있다.

기억나는 연구실 에피소드에 대해 양소희 연구원은 "네이버 클로바에 있을 때 교수님과 NeurIPS 2020 EfficientQA Challenge에 참여했다. 당시 Open-Domain Question Answering 분야 선두주자인 UCL+Facebook AI 팀도 참여해 경쟁이 치열했다. 최종적으로 Automatic Evaluation 부문 2위, Human Evaluation 부문에서 1위를 했다. 해당 연구 논문이 대학원 진학 직후 NAACL 2021에 승인을 받아 기뻤다."라고 말했다.

양소희ㆍ최은비 연구원은 자연어의 이해와 추론을 바탕으로 스스로 결정하는 AI 시스템 개발을 목표로 연구를 계속할 계획이다.

LK 연구소에 관심이 있는 예비 연구원에게 한 마디

- 양소희(석사 1년 차) : LK연구실에서 language modeling, question answering, continual learning, textual entailment, fact checking, semantic parsing, dialogue system 등 다양한 주제로 연구가 진행됩니다. 자연어 처리 연구를 사랑하시는 분들과 자유롭고 수평적인 분위기에서 즐겁게 연구하면 좋겠습니다.
 

- 최은비(석사 1년 차) : 동료 연구원과 제 연구 아이디어를 주제로 3시간이 넘는 열정적인 토론을 했던 기억이 있습니다. 제가 연구를 하는 대학원생임이 실감 났습니다. LK 연구소는 자연어 처리 연구에 집중할 수 있는 좋은 환경이니 오셔서 함께 즐거운 연구하면 좋겠습니다.

 

서민준 

▲ 캘리포니아 버클리 대학교 전기컴퓨터공학부 학사

▲ 워싱턴 대학교 컴퓨터과학부 석ㆍ박사

▲ 네이버 선임연구원

▲ 엘박스(LBOX) 머신러닝 어드바이저

AI타임스 정윤아ㆍ박유빈 기자 donglee0408@aitimes.com

[관련 기사] 논문-수업 모두 잡은 IEEE의 젊은과학자상 수상자...KAIST 서창호 교수 인터뷰
[관련 기사] [AI LAB 탐방①] MIPAL 연구실: 서울대 곽노준 교수, "전공 다양성을 바탕으로 비지도학습 연구에 매진"

키워드 관련기사
  • 중앙대 인문콘텐츠연구소, 제4회 인공지능인문학 국제학술대회 개최
  • 네이버 "한국어 음성 인식 기술은 클로바가 1등...활용도 계속 높일 것"
  • KAIST 연구팀, 인간 뇌 모방한 고집적 뉴로모픽 반도체 개발