[박정현의 데이터사이언스 시작하기] ⓛ데이터사이언스, 머신러닝 그리고 인공지능

들어가며...

'인공지능' '머신러닝' '데이터사이언스'는 더이상 공상과학 영화나 책에서만 보고 듣는 용어가 아니다. 이미 알게 모르게 우리 실생활에 들어와 있다. 이세돌 9단과 알파고의 바둑 대결에 이어 최근 OpenAI가 공개한 대화형 GPT-3와 같은 대형 프로젝트 형태 뿐만 아니라 인공지능 스피커나 쇼핑 추천 시스템 등이 그 예다. 앞으로도 뜨거운 관심을 받을 수 밖에 없는 분야다.

때문에 이 분야를 공부하고 싶어하는 분이 많다. 이들 분야로 이직을 고려하는 분도 많다. 데이터 과학자는 가장 섹시한 직업 가운데 하나이고, 인공지능 기술을 선도하는 국가가 국제 경쟁력을 이끌 것 이라는 얘기가 자주 들려온다.

미국, 캐나다, 중국 등 인공지능 분야에서 앞서가는 나라들에서는 이미 몇 년 전부터 인공지능을 국가과제로 선포했다. 우리나라에서도 지난해 12월 과학기술정보통신부 주도로 '인공지능 국가전략'을 발표했다. 이러한 분위기는 산업계 뿐만아니라 대학 교육에도 많은 변화를 가져왔다. 여러 대학에서 데이터사이언스 대학원과 인공지능 대학원을 설립해 전문 인력을 양성하려 하고 있다.

하지만 막상 "어디서부터 어떻게 시작해야 할지 모르겠다"거나 "비슷한 분야가 많아 어떤 것을 공부해야 할지 모르겠다"는 사람이 많다. 얼마 전까지는 소프트웨어 교육이 중요하다고 코딩을 강조해 왔는데 이제는 인공지능이라고 하니 혼란스럽다가도 코딩만 잘하면 되는 것 아닌가 싶기도 하다.

이에 머신러닝 분야 개발자를 꿈꾸는 예비 개발자를 위해 궁금증을 해결해주기 위한 글을 몇 편 쓰고자 한다. 인공지능, 머신러닝, 데이터사이언스는 무엇이며 차이점은 무엇인지, 또 이 분야에서 일하려면 어떻게 준비해야 하는지 살펴볼 계획이다. 기회가 된다면 실제 이 분야에서 일하고 계신 전문가 인터뷰를 통해 조언을 들어보는 기회도 갖고자 한다.

[글 싣는 순서]

ⓛ데이터사이언스, 머신러닝 그리고 인공지능

②데이터 종류 및 관련 용어

③데이터 분석 문제

④데이터 탐색 및 데이터 시각화

⑤데이터 피처 엔지니어링 (1)

⑥데이터 피처 엔지니어링 (2)

⑦알고리즘 (1) - 회귀

⑧알고리즘 (2) - 분류

⑨알고리즘 (3) - 클러스터링

⑩성능평가 (1) - 회귀

⑪성능평가 (2) - 분류

⑫데이터사이언스 전문가 인터뷰

몇 개의 문장으로 데이터사이언스, 머신러닝, 인공지능 각각을 설명하는 것은 매우 어려운 일이다. 워낙 다양한 분야를 다루는 분야인데다 급속도로 발전하고 있어 보는 관점에 따라 다르게 정의할 수 있기 때문이다. 이 글에서는 가장 일반적으로 사용하는 정의에 필자 생각을 조금 추가했다.

데이터사이언스

데이터사이언스, 인공지능, 머신러닝 중 가장 큰 범주는? 일반적으로는 인공지능으로 생각하겠지만 현재 시점에서는 데이터사이언스가 인공지능이나 머신러닝보다 조금 더 큰 범위라고 정의할 수 있다.

모두가 축적된 정형 혹은 비정형의 빅데이터를 학습해 문제를 해결하는 방식을 사용하고 있기 때문이다. 충분한 데이터가 없다면 이 기술은 모두 제대로 작동하기 어렵다. 가장 근간이 되는 넓은 범위의 기술은 바로 데이터사이언스다.

한 대학의 데이터사이언스 대학원에서 홈페이지에 데이터사이언스에 대해 공개해 놓은 것이 있어 살펴 보았다. 이론적인 측면과 실용적인 측면 두 가지로 나누어 설명하고 있다.

이론 측면에서는 기존 통계적 기법과 최근의 머신러닝 및 인공지능 기술을 학문적으로 연구하는 것으로 정의했다. 또 실용 측면에서는 데이터를 획득하고, 여기에 전문 지식을 접목해 처리하거나 모델링화 하거나 시각화하는 과정을 통해 우리 실생활에 유용한 솔루션을 만드는 것이라고 정의했다.

퍼듀 대학의 윌리엄 클리블랜드 교수가 예측한 '빅데이터 시대 융합 학문으로서 데이터사이언스'와 일치하는 내용이다.

인공지능

인공지능은 데이터사이언스보다 정의하기 어렵다. 그만큼 다양하게 정의할 수도 있다.

공상과학 영화에 나오는 로봇을 인공지능이라고 생각하는 사람도 있고, 일상에서 사용하는 추천시스템이나 챗봇 등을 인공지능으로 간주하는 사람도 있다.

인공지능을 정의하려면 먼저 '지능'이 무엇인지부터 정의해야한다. 하지만 인간의 지능이나 인지 등을 다루는 것은 종교, 철학, 의학 등의 몫으로 남겨두자.

가장 이해하고 쉽고 현실적인 인공지능의 정의는 영국의 수학자이자 컴퓨터 과학자인 튜링이 고안한 ‘튜링테스트’를 통한 것이다. 서로 상대방을 알 수 없는 상황에서 대화하거나 어떠한 행위를 했을 때 상대방이 인간이었다고 생각했다면 그 대상은 인공지능을 갖추었다고 볼 수 있다.

예를 들어 우리가 누군가와 전화로 식당을 예약하거나 음식을 주문했는데, 통화한 상대가 컴퓨터였는데 우리가 알아채지 못했다면 그 컴퓨터는 인공지능이 있다고 말할 수 있다.

인공지능을 약한 인공지능과 강한 인공지능으로 분류할 수도 있다. 특정 분야에 한정해서 문제를 해결하는 약한 인공지능과 인간과 같이 사고하는 것을 목표로 하는 강한 인공지능이다.

머신러닝

머신러닝은 가장 익숙하지 않은 용어지만 우리 실생활에 가장 활발하게 적용되고 있는 기술이다. 크게 지도학습(supervised learning)과 비지도 학습(unsupervised learning)으로 구분할 수 있다. 데이터를 어떻게 활용해 컴퓨터(기계)를 학습(훈련, training)시키는지에 따라 구분한다.

일상에서 많이 사용하는 이메일을 예로 들어 보자. 머신러닝 이전의 이메일 스팸 필터링 시스템에서는 스팸메일을 걸러내기 위한 규칙을 설정해서 걸러냈다. 먼저 '대출' '성인광고'와 같이 스팸메일이 포함할만한 단어를 정의하고, 이런 단어가 포함된 메일은 스팸 메일함으로 분류한다. 이러한 방식을 룰 기반(rule-based) 시스템이라고 한다.

하지만 누군가에게는 대출 광고가 유용한 정보일 수도 있다. 모든 사용자에게 동일한 규칙을 적용하는 것은 불합리할 수 있다.

머신러닝 방식에서는 사용자의 행동 데이터를 학습해서 시스템에 반영한다. 만약 A라는 사용자는 ‘대출’이라는 단어가 포함된 메일을 계속해서 스팸으로 분리하고, B라는 사용자는 받은 편지함으로 분리한다면 머신러닝 시스템이 각각의 사용자 메일함에서 스팸을 분리하는 기준이 달라진다. 이런 방식이 머신러닝 기반(machine learning) 시스템이다.

각각의 데이터(이메일)을 레이블링(스팸/정상 메일)하는 작업을 거쳐 학습하는 것을 '지도학습'이라고 한다.

'비지도 학습'은 일반적으로 예측하고자 하는 목적 값 없는 데이터에서 규칙이나 패턴을 찾아내 몇 개의 그룹으로 나누는 클러스터링같은 작업을 하는 것이다. 대표적인 비지도 학습 방법으로는 데이터들간의 유사도를 측정해 데이터셋을 K개의 그룹으로 구분해주는 k-meansn와 같은 알고리즘이 있다.

이밖에 신용카드 결제 데이터에서 사기 거래를 검출해내는 이상값 검출(anomaly detection), 알파고로 유명해진 강화학습(reinforce learning) 등 다양한 머신러닝 알고리즘들이 존재한다.

우선은 데이터사이언스, 머신러닝, 인공지능 분야를 간단하게 설명해 보았다. 앞으로는 이들 기술이 기반으로 하고 있는 통계나 최적화, 기타 관련 배경을 살펴볼 예정이다.

박정현 칼럼니스트는 서울대 EPM연구원(공학전문대학원 엔지니어링 프로젝트 매니지먼트(EPM) 연구실)이며, 서울대 졸업 후 머신러닝 스타트업을 창업한 바 있다.

[AI & Tech] '3분만 기다려봐요' 로봇 셰프가 만드는 파스타

[AI & Tech] '작품 보실래요?' 2020 파이토치 해커톤 마감

"AI‧빅데이터 고급 인력 수요 대응"…전남대-서울대-경북대, ‘데이터사이언스' 교육 허브로

박정현 서울대 EPM 연구원 park.jeonghyun@snu.ac.kr

다른기사 보기

상단영역

본문영역

SNS 기사보내기