메이코더스 최새미 대표

온종일 육아에 매달려야 하는 날이 끝없이 이어질 것만 같았다. 코로나19 확산은 많은 회사 일들을 멈추게 했고, 많은 집안 일을 엉키게 했다. 회사에선 최대한 모든 일들이 예측 가능하게 돌아가게 하도록 노력하지만, 집에서는 속수무책. 아직 응석받이 아기는 양치질하러 가자는 한마디에 드러누워 울어 버리거나, 푸릇한 창 밖 세상 궁금했는지 갑자기 유리창을 핥는다. 가장 좋아하는 간식을 준다 해도 돌발 행동엔 별무효과. '별별 짓' 다 한다.

‘경험으로부터 배운다’... 아기의 강화학습

대학원에서 ‘기계학습’ 첫 수강 때 기계학습 큰 분류 중 ‘강화학습(Reinforcement Learning)’에 대한 개념을 접했다. 교수님들은 개념 이해를 돕기 위한 비유로 아기의 학습능력을 이야기하시곤 했다.

아기는 처음에 뜨거운 찻잔을 보고도 무엇을 해야/하지 말아야 하는지 모른다. 그러다 ‘일단 손을 갖다 댄다’. 뜨거움을 느껴 본능적으로 손을 뗀다. 재밌는 건, 그리고도 ‘또 만진다’. 뜨거운 고통을 맛보았으니 이번에는 좀 다르게 찻잔 윗부분이나 바닥 등의 부위를 만져 본다. 결국 손잡이를 잡아야 뜨겁지 않다는 것을 배운다. 경험으로부터 일종의 행동규칙을 배운다는 강화학습 절차에 대한 간단한 비유다.

강화학습이 효과적인 이유는 시도에 대한 당장의 보상이 있기 때문이다. 아기는 여러 가지 행동을 해보면서 안전한 움직임이나 대처법을 배운다. 아기가 말문을 틔울 때, 걷기 시작할 때 부모들은 함박웃음과 칭찬으로 보상한다.

즉각적 보상은 아기가 다음 시도를 더 쉽게 할 수 있게 하고 사람다운 행동을 배울 수 있게 한다. 그래, 우리집 아기는 어른은 하지 않을 '별별 짓'을 다해보며, 성장 중인 것을.

작은 보상의 가치

인공지능(AI)에 강화학습을 구현할 때는 미래 보상에 대한 ‘정책’을 정의하고, 주어진 환경에서 매번 보상을 계산해 더 나은 방향으로 다음 시도를 정의한다. 알파고(Alphago)가 바둑왕으로서 자리매김할 수 있었던 것은 컴퓨팅 자원이 빠르고 다양한 시도를 보장했고, 보상에 대한 알고리즘 설계가 잘 이루어졌기 때문이다. 언더/오버피팅(Under/Overfitting) 없는 최적화 설계.

스타트업도 산업에서 따지면 아기와 다름없다. 강화학습의 방법으로 경험했고, 즉각 보상을 얻었고, 다른 시도를 할 수 있다. 연구를 이어서 할 수 있는 작은 개발 과제들은 엄마로서 아기를 키울 수 있는 시간적 여유도 줬다.가끔 창업을 했다고 하면 “대단하다”는 말도 들었다. 나는 졸업 시점에 최적의 보상을 얻을 수 있는 방안을 택한 것이리라.

오늘 도착한 정부 모기관이 보내준 이메일을 열어본다. 언제나처럼 ‘유니콘’이나 ‘임팩트’ 등 묵직한 단어들이 화려한 수사를 구사한다. ‘1등이 될’, '아주 큰 스타트업'을 선발하고 지원한단다. 그 뿐이랴, 스타트업 인재만이 우리 미래 주역인 듯, 대한민국 앞날을 책임질 사람처럼 과대포장하는 경우도 흔하다. 너무 ‘크고 먼’ 이야기로만 들린다. 오버피팅된 머신러닝 모델을 바라보는 심정이랄지.

강화학습 이론에 따르자면, 큰 보상을 위해서는 아주 큰 시도를 성공적으로 마쳐야 한다는데, 갓 창업한 스타트업에겐 어울리지 않는다. 그 전에 나가떨어지지 않기 위해, 그저 오늘 하루도 육아와 회사 일에 착실히 매달려 봐야겠다.

2000년대 연예인 팬페이지를 만들며 웹프로그래밍에 진입했다. 서울대에서 산림과학과 컴퓨터공학을 전공하고 졸업 후 동아사이언스에서 기자로 활동했다. 이후 바이오인포매틱스를 석사 전공하고 연구개발용 소프트웨어개발 회사 메이코더스를 창업했다. 최근에는 국내에서 쌓은 경험을 기반으로 동남아시아 대상 케이뷰티 추천 알고리즘과 이커머스 플랫폼을 개발 중이다. 육아와 창업을 병행하며 고된 일상을 보내고 있다.

[苦告스타트업] 필터버블, 이 또한 지나가리라

[苦告스타트업] 언택트 스타트업의 콘택트 근무

키워드 관련기사
  • [苦告스타트업] 하늘색 풍선의 꿈