데이터과학자가 머신러닝 모델 및 데이터 드리프트 시 주의해야 할 문제
기업 모델 드리프트 인지·모델 성능 저하 관리 인지도 ↑
컨셉 변화·데이터 자체·수집프로세스 과정서 다양하게 왜곡
도미노, 머신러닝 모델 개발 배치 협업 플랫폼 DMM 내놔

데이터 과학자들은 머신러닝(기계학습) 모델 구축 이후 이 모델이 표류하지 않는지에 대한 감시에도 신경써야 한다. 드리프트(drift)는 모델 성능을 변화시켜 예측 분석 프로젝트에 혼란을 주면서 기업에 막대한 재정적 손실은 물론 고객경험까지 저하시킨다. 사진=셔터스톡
데이터 과학자들은 머신러닝(기계학습) 모델 구축 이후 이 모델이 표류하지 않는지에 대한 감시에도 신경써야 한다. 드리프트(drift)는 모델 성능을 변화시켜 예측 분석 프로젝트에 혼란을 주면서 기업에 막대한 재정적 손실은 물론 고객경험까지 저하시킨다. (사진=셔터스톡)

데이터 과학자들의 수고는 머신러닝(기계학습) 모델 구축에 그치지 않고 이후 이 모델이 표류하지 않는지에 대한 감시로 이어진다. 드리프트(drift)는 모델 성능을 변화시켜 예측 분석 프로젝트에 혼란을 주면서 기업에 막대한 재정적 손실은 물론 고객경험까지 저하시키기 때문이다. 기업들도 이 문제 해결의 중요성을 인식하면서 이의 효율적 사전탐지 및 해결 솔루션에 주목하기 시작했다.

데이터나미는 16일(현지시간) 날로 중요성이 부각되고 있는 데이터 드리프트 관리의 중요성과 함께 데이터 과학자들의 머신러닝 모델 개발·배치·협업은 물론 이 모델 배치 후 발생할 수 있는 데이터 드리프트를 사전 감지해 대처하게 도와 주는 플랫폼인 도미노 데이터랩(Domino Data Labs)의 도미노 모델 모니터(DMM) 툴에 주목했다.  

◆머신러닝 모델 구축이 끝난 후에도 지속되는 고민

머신러닝(기계 학습) 모델을 개발할 때 많은 것들이 잘못될 수 있다. 몇 가지 예를 들면 품질이 좋지 않은 데이터를 사용하거나, 인과관계에 대한 잘못된 상관관계를 사용하거나, 교육 데이터에 모델을 과다하게 적합시킬 수 있다. 그러나 데이터 과학자들에게는 모델과 데이터 이동에 관한 모델을 생산에 배치한 후에도 주의해야 할 몇 가지 사항이 있다.

데이터 과학자들은 무엇보다도 머신러닝 모델을 교육시키기 위해 사용하는 데이터에 충분히 주의를 기울인다. 그러나 결국 머신러닝 모델은 데이터의 함수(기능)에 불과하다. 일단 모델이 생산되고 나면, 데이터 과학자들은 모델이 표류(drift)하지 않는지 확실히 감시해야 하기 때문에 작업은 끝나지 않는다.

이들이 신경써야 할 예측 분석 프로젝트에 혼란을 줄 수 있는 드리프트(drift)에는 몇가지 유형이 있다. (드리프트란 머신러닝 컨텍스트에서 모델 성능 저하를 초래하는 입력 데이터의 변경 내용을 말한다.) 데이터 과학자들은 자신들의 작업에 해를 끼칠 확률을 줄이기 위해 이들을 경계해야 한다.

◆과학자가 측정하는 가치가 급변할 때 발생하는 컨셉 드리프트(concept drift) 유의

데이터과학자들이 경계해야 할 드리프트 가운데 첫 번째로 컨셉 드리프트(concept drift)가 있다.

이는 데이터 과학자가 측정하는 가치가 현저하게 변화할 때 발생한다. 탐지를 피하기 위해 기술을 바꾸는 사기꾼들을 생각해 보면 된다. 데이터 과학자들은 그 사기꾼의 새로운 기술을 설명하기 위해 그들의 모델을 바꿀 필요가 있다.

기업들도 드리프트 문제 해결의 중요성을 인식하기 시작하면서 이의 효율적 사전탐지 및 해결 솔루션에 주목하기 시작했다. 사진=데이타나미
기업들도 드리프트 문제 해결의 중요성을 인식하기 시작하면서 이의 효율적 사전탐지 및 해결 솔루션에 주목하기 시작했다. (사진=데이타나미)

게다가 데이터 자체도 표류할 수 있다. 예를 들어 코로나19 팬데믹(세계적 대유행)에 따른 봉쇄 기간 동안 고객들의 구매 패턴은 극적으로 변했다. 소비재 공급망 내에서 기업들이 공급을 늘리거나 줄이고, 가격을 책정하기 위해 의존하는 구매 신호들은 혼란스러웠지만 많은 사람들은 이를 ‘뉴노멀(새로운 기준)’이라고 불렀다.

이같은 데이터 표류 상황을 이해하기 위해서는 온도계와 같은 물리적 센서조차도 정확성을 확보하기 위해 주기적으로 재보정해야 한다는 점을 생각해 보는 것만으로도 충분하다.

◆데이터 수집프로세스에서 발생하는 데이터 왜곡이 머신러닝 모델 정확도 저하

또한 데이터 수집 프로세스에서 데이터가 왜곡될 수 있는 기술적 결함이 있을 수도 있다. 표본 추출 빈도가 갑자기 바뀌거나, 누군가 무언가를 측정하는 새로운 방법을 도입해 놓고는 친근한 이웃 데이터 과학자들에게 말하는 것을 잊어버렸을 수도 있다. 이는 큰 실수다.

일반적으로 데이터 과학자들은 자신들의 모델이 시간경과에 따라 진부해질 것이고, 정확도를 유지하기 위해서는 더 새롭고 신선한 데이터로 재교육될 필요가 있다는 것을 알고 있다. 모든 모델은 주기적으로 재교육돼야 하며, 모델이 자주 재교육 될수록 좋다는 것은 말할 필요도 없다.

그러나 닉 엘프린 도미노 데이터 랩(Domino Data Labs) 최고경영자(CEO)는 “보다 빈번하게 모델을 재교육한다고 해서 모델의 문제점이나 데이터 드리프트 문제를  완전히 제거할 수 있는 것은 아니다”라고 말한다.

엘프린은 자신의 회사는 “데이터 과학자 팀이 머신러닝 모델의 개발과 배치에 대해 협업할 수 있도록 도와주는 플랫폼을 개발했다”고 설명한다. 그는 “자주 재교육을 하는 게 좋거나 낫다고 말하는 것은 지나친 단순화라고 생각한다”며 “정말 가치있는 일은 데이터 과학자들이 실제 모델에서 어떤 일이 일어나고 있는지에 대한 정보를 얻고 상황에 맞는 피드백 루프를 갖는 것이라고 생각한다”고 말한다. 또 “우리의 특징이 어떻게 변화하고 바뀌었는지에 대한 맹목적 재교육만으로도 우리의 훈련 세트로 접혀 들어올 새롭고 중요한 정보가 있을 것”이라고 강조했다.

◆드리프트를 해결해 줄 툴 등장
 
도미노 플랫폼은 항상 고객이 직접 모니터링 툴을 구축하는 데 사용할 수 있는 모델 행동( model behavior)의 로그를 보관해 오면서 고객들이 자신들의 모니터링 툴을 만들 때 사용할 수 있도록 했다. 그러나 DMM(Domino Model Monitor·도미노 모델 모니터)을 개발할 때까지 고객을 대신해 모니터링을 자동화하지 않았다.

DMM은 다양한 통계적 검사를 사용해 드리프트가 발생하는지 여부를 감지하고 만일 예측에  영향을 줄 만큼 충분히 큰 드리프트가 발생하면 이를 즉시 탐지해 낸다. 이 SW는 또 데이터 과학자가 모델에 사용된 특정한 특징을 심층 분석해 어떻게 드리프트가 발생하는지 판단하게 해주는 탐색적 시각화 툴을 제공한다.

엘프린은 데이터 과학자가 데이터와 모델 또는 모델들에 대해 더 잘 이해할 수 있도록 돕는 것이 이 SW의 모든 것이라고 말한다. 그는 “이것은 모델에 관한 것이다. 그들 중 단 한 하나일지라도 매우 중요하고 매우 가치 있을 수 있기 때문에, 표류하는 단 한 하나의 모델도 사업에 엄청난 영향을 미칠 수 있다”고 말한다.

모니터링은 데이터와 모델의 드리프트를 탐지해 내는데 필수적이다. 사진=셔터 스톡
모니터링은 데이터와 모델의 드리프트를 탐지해 내는데 필수다.
(사진=셔터 스톡)

도미노데이터랩은 “코드 퍼스트”주의의 데이터 과학자들에 초점을 맞춘다. 실제로 도미노의 플랫폼은 관리되고 협업적인 환경에서 데이터과학자들이 가장 좋아하는 파이썬이나 R 프레임워크와 같은 툴을 사용할 수 있게 해주는 구조를 제공한다.
 
엘프린에 따르면 포춘 100대 기업의 약 20%가 도미노 고객이며, 가장 큰 고객사는 1000명에 가까운 데이터 과학자가 이 제품을 사용하고 있다. DMM은 도미노 플랫폼에서 개발 및 배포된 모델과 함께 작동하지만 다른 툴로 개발된 모델과도 작동한다.

그는 “가장 크고 앞선 고객들은 모델과 데이터의 드리프트, 그리고 이들이 자신들의 사업에 미칠 영향에 대해 가장 큰 우려를 갖고 있다”고 말했다. 그는 “모델 드리프트를 인지하고 관리하는 것, 그리고 모델 성능 저하를 감지하는 것은 중대한 문제(critical problem)로서 점점 더 많은 기업들이 인지하기 시작했다”고 말했다. 이어 “이는 세상과 시장에 있어서는 상당히 새로운 문제이기 때문에, 이전까지만 해도 이 문제를 해결할 수 있는 솔루션들이 없었다. 그것이 바로 도미노모델모니터의 핵심이다. 즉, 기업들이 모델들의 성능 변화에 따른 재정적 손실을 발생시키거나 고객 경험을 저하시키기 전에 모델 드리프트를 감지하도록 돕는 것이다”라고 강조했다.

엘프리에 따르면 도미노는 최근 선전하고 있다. 코로나19 팬데믹으로 인해 회사 직원들은 재택근무를 하게 됐지만 이 가운데서도 지난 주 발표된 4300만 달러(약 522억 원)규모의 시리즈 E 라운드 펀딩을 받았다. 새로운 투자자 중에는 투자가인 동시에 고객인 델 테크놀로지도 있다.

이 회사는 이와 함께 도미노 플랫폼 버전 4.2도 발표했다. 이 버전은 DMM 외에도 주문형 스파크(Spark) 클러스터에 대한 지원, 새로운 데이터 사이언스 프로젝트 관리, 쿠버네티스 배포를 위한 추가 지원을 제공한다.

엘프리는 지난주 줌 콜에서 “내가 아는 한 우리는 정말 큰 조직의 필요를 충족시키는 유일한 개방적인 엔터프라이즈급 데이터 과학 플랫폼”이라고 말했다.

[관련기사] 규칙기반 AI vs 머신러닝...최적 활용 조건은?

[관련기사] 오픈AI, 자연어 처리(NLP) 모델용 API 출시

키워드 관련기사
  • 슈퍼브AI, 머신러닝으로 데이터 라벨링 자동화 90% 구현