구글, 페이스북 등 빅테크기업, 정보보호기술자(privacy engineer)직무 신설
컴퓨터 과학, 컴퓨터 공학과 달리 프로그래밍보단 수학과 통계학에 비중 둬
목표로 하는 대학에 그 분야의 전문가가 있는지 알아보는 것 중요해

[편집자 주] 4차산업혁명을 선도하는 국가로 발돋움하기 위해서는 인공지능(AI) 기술을 선진국 수준으로 끌어올리는 것은 피할 수 없는 도전적 과제다. 미국과 중국을 비롯한 강대국들의 틈바구니에서 우리의 목소리를 키워나갈 수 있는 길이기도 하다. 그 첫걸음이 인재 양성에 있다는 것은 주지의 사실이다.

때문에 해외 여러 곳에서 특히 미국 등 선진 국가에서 인공지능 전문가로 성장하고 있는 한국인 연구자들을 발굴하고 탐색하는 것은 매우 의미있는 일이다. 또, 미래의 한국 인공지능 기술 개발과 산업을 이끌어갈 인재들의 현재와 그 성과를 만나보는 건 즐거운 일이기도 하다.

중국은 방대한 데이터를 활용해 인공지능 선도 국가인 미국을 추격하고 있다. 소프트웨어정책 연구소가 발간한 AI 인덱스 리포트 2021에 따르면, 중국은 AI 논문 인용 수 20.7%를 차지하며 미국을 앞질렀다.

중국의 눈에 띄는 인공지능 기술 발전 뒤에 개인정보보호 문제가 뒤따른다. 지난해 12월 베이징과 상하이가 주민들의 안면 정보와 출입 기록을 무단으로 활용해 논란을 빚은 바 있다.

미국은 중국의 비윤리적인 데이터 수집 과정에 대해 비판했다. 미국은 지난 7월 인도, 영국, 호주와 4개국 협의체를 통해 중국을 견제하는 한편, 개인정보보호를 기반으로 AI 기술을 개발할 것을 약속했다. 

현재 미 의회는 법률로 미국민들로부터 수집된 데이터에 개인정보보호 기술 적용을 의무화하고 있다. 구글, 페이스북 등 거대 IT 업계도 정보보호기술자(privacy engineer) 직무를 신설해 정보보호 역량을 늘리기 위해 노력 중이다.

미국 조지아대 이재우 교수는 연세대 컴퓨터 공학 학ㆍ석사 과정을 수료했다. 석사 과정 당시 이원석 교수의 지도하에 고차원 데이터 흐름을 위한 효율적인 데이터 마이닝 알고리즘 개발 관련 연구를 했다.

또 '온라인 다차원 데이터 흐름을 위한 격차 기반 부분 클러스터링 방법'을 주제로 제17회 ACM 정보 및 지식 관리 대회에 참여했다. 해당 논문은 그리드 기반 클러스터링과 데이터셋 마이닝을 결합한 부분 공간 클러스터링 알고리즘을 제안했다. 

이 교수는 미국 퍼듀대학으로 가 2014년 컴퓨터 과학 박사 과정을 마쳤다. 그는 커리큘럼상 큰 차이는 없지만 컴퓨터 과학은 컴퓨터 공학과 다르게 순수과학과 통계학에 비중을 두고 있다고 설명했다. 조지아대 컴퓨터 과학 조교수로 부임하기 전, 펜실베이니아 대학 다니엘 키퍼 교수의 머신러닝 연구실에서 박사후 연구원으로 근무했다.

이재우 교수는 다니엘 키퍼 교수의 영향으로 개인정보보호 머신러닝(privacy-preserving machine learning) 분야에 발을 들여놓게 됐다. 그 과정에서 머신러닝 알고리즘 출력이 훈련 데이터셋 안에 들어있는 특정 데이터 정보를 유출할 수 있다는 사실을 알게 됐다.

이 교수는 다니엘 키퍼 교수와 지식 발견 및 데이터 마이닝에 관한 제21회 ACM SIGKDD 국제회의에서 '일관된 제약 속 차등 개인정보를 위한 최대 가능성 후처리'를 주제로 논문을 발표했다. 

볼록 및 비볼록 문제에 대한 실험은 제안된 알고리즘이 개인정보 예산을 효율적으로 사용하고 개인 최적화 프로그램에 대해 경쟁력 있는 성능을 보여줄 수 있음을 보여준다. (출처=차동 개인 최적화를 위한 확률적 적응형 선 탐색, 2020.08 이재우 교수와 첸 첸 박사 저)
볼록 및 비볼록 문제에 대한 실험은 제안된 알고리즘이 개인정보 예산을 효율적으로 사용하고 개인 최적화 프로그램에 대해 경쟁력 있는 성능을 보여줄 수 있음을 보여준다. (출처=차동 개인 최적화를 위한 확률적 적응형 선 탐색, 2020.08 이재우 교수와 첸 첸 박사 저)

개인정보보호 연구에 따르면, 원본 데이터의 일관성을 보장하기 위해 교란 데이터를 사후 처리함으로써 많은 데이터 쿼리의 정확도를 개선할 수 있다. 해당 논문에서는 정확도를 더욱 개선하기 위해 이 사후 처리 단계를 제한된 최대우도 추정 문제로 공식화했다. 느린 선형 프로그램에 의존하는 대신 차등적으로 표, 히스토그램, 매트릭스 메커니즘(선형 쿼리)을 포함해 여러 응용 분야에 적합한 해결책을 제시한다.

연구 당시 그는 데이터셋을 얻기 위해 병원 및 관공서에 관련 데이터를 요청했으나 개인정보와 법적 문제를 이유로 거절당하기도 했다. 또 개인정보보호에 반감을 갖고 있는 연구자들과 함께 연구를 진행하기도 했다.

현재까지 이 교수는 다니엘 키퍼 교수와 '경험적 위험 최소화를 위한 차등적 개인 신뢰 구간', '차등 개인정보 딥러닝과 직접 피드백 정렬' 등을 주제로 꾸준히 개인정보보호 관련 논문을 전기전자공학회(IEEE)에 게재하고 있다.

다음은 이재우 교수와 일문일답한 내용이다. 

모델들이 개인 정보를 학습할 수 있는 양을 제한하는 것이

개인정보보호 머신러닝의 핵심

사진=이재우 교수 제공, 셔터스톡
사진=이재우 교수 제공, 셔터스톡

 

Q. 컴퓨터 공학 학ㆍ석사 과정을 이수하시면서 알고리즘 개발 연구를 진행했다. 개인정보보호 관련 연구에 관심을 갖게 된 계기는?

박사과정을 지도한 크리스 클리프턴(Dr. Chris Clifton)교수 소개로 개인정보보호 머신러닝(privacy-preserving machine learning) 분야에 발을 들여놓게 됐고 여러 논문을 읽는 과정에서 이 분야에 흥미를 가졌다.

이 분야에 확신을 갖게 된 계기는 머신러닝 알고리즘 출력이 놀랍게도 훈련 데이터셋 안에 들어있는 특정 데이터에 대한 정보를 유출할 수 있다는 사실을 알게 되었을 때다.

반대로 말하면 머신러닝 모델들의 출력값(예; 학습된 모델들의 파라미터들)만 가지고도 특정 개인정보에 대한 유추가 가능하다는 점이다. 잠재적으로 개인들로부터 수집된 데이터에 AI를 적용시킬 때 개인정보보호에 대한 문제가 있을 수 있다. 당시에는 실질적인 해결책도 존재하지 않아 앞으로 연구 주제가 무궁무진한 분야라는 생각이 들어 이 분야에 빠지게 되었다.

Q. 개인정보보호는 AI 윤리와 특히 연관이 깊을 것으로 생각된다. 연구 과정에서 어려운 점은 없었나?

연구 당시 가장 힘든 점은 개인정보보호가 필요한 실제 데이터를 구하기가 어렵다는 점이었다.

관련 알고리즘 개발 후 실제로 이것이 효과적임을 보여주는 가장 좋은 방법은 개인정보가 문제될 수 있는 민감한 데이터에 (예를 들어 병원 환자 정보 또는 보험회사 정보 등) 적용해 보는 것이다. 이러한 데이터셋을 얻기 위해 병원 및 관공서 몇 군데에 요청해 보았으나 개인정보 및 법적 문제를 이유로 거절했다.

또 연구 측면에서 개인정보보호에 반감을 가지고 있는 연구자들과 함께 연구해야 하는 점이 힘들었다. 개인 정보 보호와 AI 모델의 정확도는 서로 상충 관계에 있습니다. AI 모델들이 정확한 정보를 학습한다는 것은 개인정보를 학습할 가능성이 높아져 개인 정보 유출에 대한 위험이 증가한다.

이를 막기 위해서 모델들이 개인 정보를 학습할 수 있는 양을 제한하는 것이 개인정보보호 머신러닝의 핵심이다. 하지만 이 과정에서 학습의 정확도 저하가 발생해 개인 정보보호 기술 적용을 꺼려하는 연구자들이 있다.

Q. 연세대 컴퓨터 공학 학ㆍ석사 취득 후 퍼듀 대학에서 박사학위를 받았다. 미국과 한국 간 커리큘럼 상 차이가 있다면?

가장 큰 차이점은 컴퓨터 공학(computer engineering)과 컴퓨터 과학(computer science)이 구분된다는 점이다. 한국에서 공부할 때는 한 번도 이 둘을 구분하려고 했었던 적은 없다. 하지만 유학 중 "우리는 과학자이니 문제를 항상 공학적 접근이 아닌 과학적으로 접근해야 한다."라고 교수님께서 강조했다.

커리큘럼상 큰 차이점은 못 느꼈지만 개인적으로 미국에서의 컴퓨터 과학은 순수과학 쪽에 좀 더 가깝게 다뤄진다. 컴퓨터 과학에서 프로그래밍은 아주 중요하지만 미국에서의 수업이 좀더 수학과 통계학에 비중을 더 두었던 것 같다.

Q. 중국은 방대한 데이터량으로 미국 AI 기술을 따라잡으려 한다. 데이터 수집 과정에서 개인정보, 사생활 침해가 발생하곤 한다. 이에 대해 어떻게 생각하는지?

개인적으로 AI기술을 연구하다가 보면 궁극적으로 부딪히는 문제가 개인정보 보호 문제라고 생각한다. 방대한 양의 데이터를 통해 AI 모델들을 높은 정확도에 이를 수 있다.

하지만 학습된 모델들을 배포하고 실제 애플리케이션에서 사용 시 문제가 발생할 수 있다. 그중 하나가 학습된 모델들을 통해서 훈련 데이터 셋 안에 들어있는 개인들의 민감한 정보를 유추할 수 있다는 점이다. 모델 훈련에 사용된 데이터를 역으로 유추할 수 있게 됨에 따라 여러 사회 문제가 발생할 수 있으며 이러한 AI 모델들이 보안 취약점으로도 악용될 수 있다.

중간 출력에 포함된 데이터에 대한 지식을 통합하여 정확도를 향상시키는 후처리 알고리즘. (출처=ICML 워크숍 논문)
중간 출력에 포함된 데이터에 대한 지식을 통합하여 정확도를 향상시키는 후처리 알고리즘. (출처=ICML 워크숍 논문)

Q. 유학 준비 과정과 생활이 궁금하다.

함께 유학을 준비하던 친구들 대부분이 영어 시험 점수 향상에 많은 투자를 했던 것 같다. 하지만 유학의 목적은 영어가 아니며 본인이 학위를 받고자 하는 학문 분야에서 전문가가 되는 것일 것이다.

예를 들어 막연히 AI를 전공하겠다가 아닌 AI 안의 여러 분야들을 탐색해 보고 자신이 앞으로 좀 더 심층적으로 공부해 보고 싶은 세부 전공분야에 대해 미리 생각해야 한다. 본인이 목표로 하는 학교에 그 분야의 전문가가 있는지 등 사전에 정보를 얻는 것이 중요한 것 같다.

Q. 머물고 있는 지역에 대해 소개한다면?

현재 근무하고 있는 조지아대학교(University of Georgia)에 대해 소개하고 싶다. 조지아대(UGA)는 미국 조지아 주의 에덴스(Athens)라는 도시에 위치하고 있으며 1785년에 조지아 주로부터 인가를 받는 미국에서 역사가 가장 오래된 고등교육기관이다. 안타깝게도 인가는 최초로 받았으나 실제 학생들을 교육하기 시작한 것은 노스 캐롤라이나 대학(UNC)보다 늦었다.

역사가 오래된 조지아대는 조지아 주민들로부터 가장 사랑을 받는 대학교이며 수많은 인재를 배출했다. 현재 조지아 주지사도 조지아대 출신이다. 학부 및 대학원을 포함하여 약 3만 9천 명 정도의 학생이 등록되어 있으며 축구팀이 유명해 지역주민들의 사랑을 받고 있다.

Q. 미국에서 개인정보보호 기술 동향은 어떤가.

미국 내에서 개인정보보호가 의무화됐고 이에 따라 개인정보보호 머신러닝 분야에 대한 전문가의 수요와 지원이 늘고 있다. 구글이나 페이스북 등 거대 IT기업들도 소프트웨어 개발자로부터 파생돼 개인정보 기술자(privacy engineer)라는 새로운 직무를 만들고 현재 계속 이 분야의 역량을 늘려가는 중이다.

개인정보 기술자들은 기존의 기업들이 해오던 운영 방식에 개인정보보호 기술을 적용하고 새로 출시되는 제품에 개인정보 침해 및 유출의 위험이 없는지 분석하는 역할을 한다. 개인적으로 한국에서도 정부ㆍ기업ㆍ대학 차원에서 개인정보보호 기술 개발 및 전문가 양성에 대한  투자를 늘려 이 분야에서 우위를 선점하면 좋겠다.

Q. 향후 10년 내 해당 분야가 어느 정도 발전한다고 보는가.

현재 개인정보보호 머신러닝은 머신러닝 내의 다른 세부 분야에 비해 역사가 짧지만 가장 빠르게 크고 있는 분야 중에 하나다. 데이터셋이 개인으로부터 수집되거나 혹은 개인들과 연결된다면 반드시 개인정보 문제가 발생한다. 앞으로 AI 모델 학습 시 개인정보보호는 선택 사항이 아니라 유럽 연합의 일반 데이터 보호 규정(GDPR)처럼 의무사항이 될 것이다.

현재 미 의회는 법률로 통계국이 미국민들로부터 수집된 데이터에 개인정보보호 기술 적용을 의무화하고 있다. 현재 개인 커뮤니티 내에서도 개인정보보호 모델들과 일반 모델들 간 정확도 격차를 줄이려는 노력을 계속하고 있다. 앞으로도 연구가 활발히 계속되어 이 격차가 훨씬 더 줄어들어 개인정보보호 기술을 AI에 적용하는 것이 일반적인 것이 될 것으로 예상한다.

Q. AI 개발자를 꿈꾸는 후배들에게 조언을 준다면?

진부한 얘기지만 AI 분야의 학회들을 보면 너무나 변화 속도가 빠르다. 지구 반대편에 떨어진 독립적인 연구 그룹들이 동일한 아이디어로 논문을 게재하는 일도 빈번히 일어난다.

전 세계적 AI 열풍으로 이 분야를 연구하는 사람들도 엄청나게 증가했다. 트렌드를 따라가기보다는 본인이 선택한 분야에 집중해 최신 기술에 뒤떨어지지 않도록 끊임없이 공부하는 것이 중요하다.

 

AI타임스 정윤아 기자 donglee0408@aitimes.com

[관련 기사] 논문-수업 모두 잡은 IEEE의 젊은과학자상 수상자...KAIST 서창호 교수 인터뷰

[관련 기사] [글로벌 Lab 젊은 과학자] 구글 코로나19 예측 AI 개발한 윤진성 박사…도쿄올림픽에도 영향끼쳐

키워드 관련기사
  • [글로벌 Lab 젊은 과학자] “대칭구조 반영 딥러닝으로 AI 핵심 문제 해결에 도전”...딥마인드 김현직 박사
  • [글로벌 Lab 젊은 과학자] 알파고를 넘어 새로운 강화학습 세계를 연다...딥마인드 오준혁 박사
  • [글로벌 Lab 젊은 과학자] "향후 10년 컴퓨터 비전 분야 비약적인 변화 보일 것"....미 캘리포니아대 이용재 교수