[박정현의 데이터사이언스 시작하기] ③ 데이터 분석 문제

지난 두 번의 글을 통해 데이터 사이언스와 관련 용어를 살펴봤다. 앞으로는 어떤 문제를 어떤 방식으로 풀어보고 어떻게 평가하는지 다룰 예정이다. 이번 글은 데이터 분석에서 다루는 문제 분석 유형과 특징을 소개한다.

기본적으로 데이터 분석을 통해 해결하고자 하는 문제는 회귀(regression)와 분류(classification)다. 우리가 해결하고자 하는 문제가 어떤 형식의 문제인지 혹은 얻고자 하는 결과가 어떤 형태의 값인지를 파악해야 문제해결에 적합한 방법(알고리즘)을 선택할 수 있다. 결과 평가도 정확히 할 수 있다.

조금 어색할 수 있지만 주식투자를 예로 들어 데이터 분석 문제를 설명해본다.

분류(classification)

‘김개미’씨는 저금리가 지속되고 집값이 계속 상승할 것 같은 위기감에 생애 처음으로 주식투자를 시작하려고 한다. 하지만 어떤 종목에 투자해야 할지 몰라 우선 대형주 중심의 KOSPI 100종목에서 선택해 투자할 예정이다.

하나의 종목만을 선택하려 보니 위험 부담이 클 것 같아 여러 종목에 나누어 투자하려 한다. 막상 100개의 개별 종목을 분석해서 투자를 하려니 시간이 없을 것 같아 오를 주식과 떨어질 주식의 두 가지 그룹으로 분류하는 예측 모델을 만들어 투자를 진행하려 한다.

김씨가 투자를 고려하는 시점에서 주식 종목의 특성(피처)을 분석해 앞으로 주식 가격이 오를지 내릴지 판단하는 모델을 만들어볼 수 있을 것이다. 이러한 경우 김 개미씨가 투자를 위해 해결하고자 하는 문제는 분류 문제가 되며 , 모델의 결과는 'OO종목' '오른다 또는 내린다'는 형식의 결과를 얻을 수 있다. 이와 같이 찾고자 하는 목적 변수의 값이 범주(class)나 레이블(label)인 경우를 '분 류 문제'라 한다.

예시와 같이 2가지 경우로 분류하는 문제를 이중 분류(binary classification)이라고 하며, 여러 가지 범주로 나누 는 문제를 다중 분류(multiclass classification)라 한다. 예시에서 이중 분류로 오를 종목을 'positive', 내릴 종목을 'negative'라고 했을 때 다음과 같이 4가지 경우가 발생한다.

- 오를 종목을 오른다고 예측하는 경우(True Positive)

- 오를 종목을 내린다고 예측하는 경우(False Negative)

- 내릴 종목을 오른다고 예측하는 경우(False Positive)

- 내릴 종목을 내린다고 예측하는 경우(True Negative)

이러한 결괏값을 정리 한 표를 '혼동행렬(confusion matrix)'이라 한다. 분류 문제는 기본적으로 혼동행렬의 값을 활용한 성능 지 표를 사용하게 된다. 자세한 내용은 추후 성능 평가에서 다룬다.

분류 문제의 예는 이미지에서 특징을 찾아 개와 고양이를 분류하거나 꽃잎과 꽃받침의 폭ㆍ길이를 이용해 품종을 분류하는 문제, 검사 결과를 바탕으로 질병 감염 여부를 예측하는 문제 등이 있다.

회귀(regression)

김개미씨는 자신이 만든 주식 가격 상승ㆍ하락 분류 예측 모델을 이용해 주식 투자에 대해 감을 잡았다. 이번에는 개별 종목을 분석해 가격이 얼마가 될지 예측하는 모델을 만들고자 한다.

이러한 경우 모델에 투입하는 피처의 경우 분류 경우와 같다. 하지만 분류모델이 '오른다' '내린다'로 예측하는 것과 달리 최종 결과로 'OO종목' 'xxx,xxx원' 형식의 결과를 얻는다. 이렇게 연속적인(continuous) 형태의 수치(numeric) 결괏값을 같는 경우의 문제를 회귀 문제라 한다.

회귀의 경우 예측한 값과 실젯값 사이 차이를 통해 모델 성능을 평가한다. 실제 주식의 값이 100원이었으나 90원 혹은 110원으로 예측할 수 있다. 이때 +10원과 -10원을 예측 에러(error)로 볼 수 있으며, 이를 활용한 다양한 지표를 사용하며 이 역시 평가를 다룰 때 자세히 살펴보자.

회귀 문제의 예는 위와 같이 주식가격 예측, 기온 예측, 출생률 예측 등 연속적 수치를 예측하는 문제다. 목적 변수와 피처에 따라 선형ㆍ비선형, 단순회귀ㆍ다중 회귀ㆍ다변량 회귀 등으로 나뉘며, 회귀 모델 사용을 위해서 데이터의 통계적 특성을 고려해야 한다.

지도 학습 vs 비지도 학습

예제에서 살펴본 주식 투자 문제는 동일한 데이터를 입력해 나온 결괏값의 형태를 다르게 예측해볼 수 있었다.

분류 문제의 경우 가격이 오르거나 내린 값을 목적 변수로 학습에 사용해 앞으로 가격이 오를지 내릴지를 이진 값으로 분류했다. 회귀 문제의 경우 가격이 얼마로 움직일지 목적 변수로 연속 형태의 수치를 예측했다.

결국 분류와 회귀는 기존에 답을 알고있는 데이터를 활용해 모델을 학습시켰으며, 이러한 방식의 학습 형태를 '지도 학습(supervised learning)'이라고 한다.

이와 반대로 데이터에서 찾고자 하는 값을 모르는 상태에서 특정 규칙을 찾거나 특이한 값을 찾는 경우가 있다. 위 예시처럼 KOSPI 100 종목을 3개 혹은 5개 그룹으로 나눠 그룹 특징을 파악하거나 가격 상승과 연관성이 있는지 등을 분석해 볼 수 있다.(clustering)

보 통 주식과 달리 특정 그룹에 속하지 않고 혼자 떨어져 있는 종목이 있을 수 있다. 이 같은 경우 가격의 급등과 급락 등 특이한 움직임을 보이는지 분석해볼 수 있을 것이다.(anomaly detection)

이처럼 레이블과 같이 정답을 모른 상태에서 데이터 자체 특징을 이용해 그룹으로 나눠 분석하거나 특이한 값을 찾는 학습 형태를 '비지도 학습(unsupervised learning)'이라고 한다.

이번 글에서는 분석하고자 하는 문제와 결과 형태에 따라 분류와 회귀를 설명하고, 모델 학습 방식에 따라 지도ㆍ비지도 학습을 설명했다.

주식투자라는 하나의 주제로 전체를 설명하니 다소 어색한 부분도 있으나 설명하고자 하는 바가 잘 전달됐으면 한다.

다음 시간에는 데이터의 시각화로 특징을 파악하는 방법을 설명하겠다.

박정현 칼럼니스트는 서울대 EPM연구원(공학전문대학원 엔지니어링 프로젝트 매니지먼트(EPM) 연구실)이며, 머신러닝 스타트업을 창업한 바 있다.

[박정현의 데이터사이언스 시작하기] ⑧ 알고리즘 (2) - 분류

"AI‧빅데이터 고급 인력 수요 대응"…전남대-서울대-경북대, ‘데이터사이언스' 교육 허브로

박정현 서울대 EPM 연구원 park.jeonghyun@snu.ac.kr

다른기사 보기

상단영역

본문영역

SNS 기사보내기