현재 미국에서는 스케일 AI의 기세가 대단하다. 이 회사는 한달 전 아마존, 메타, 시스코, 인텔, AMD, 엔비디아 등 빅테크들로부터 138억달러(약 19조원) 가치로 10억달러 규모의 투자를 유치했다. 설립 5년 만에 기업 가치 100억달러 이상을 의미하는 '데카콘(Decacorn)' 기업으로 성장했다.
스케일 AI는 인공지능(AI) 학습용 데이터 전처리 전문, 즉 데이터 라벨링 선두 주자다. 기업의 AI 도입이 본격화되며, 가장 각광받는 분야 중 하나다.
데이터의 중요성은 설명이 필요없을 정도다. 특히 최근에는 세계 최고 성능 모델 자리가 거의 매달 교체되고 있으며, 오픈 소스 모델도 'GPT-4'나 '클로드', '제미나이' 같은 폐쇄형에 바짝 따라붙었다. 즉 모델 상향 평준화로, 이제 AI의 성능은 데이터에 달렸다는 말이 나올 정도다.
국내에서는 크라우드웍스(대표 김우승)가 비슷한 상황이다. 2017년 설립, 7년여간 국내 AI 데이터 분야를 이끌어 온 이 회사는 지난해에는 코스닥 상장에 성공한 뒤 역대 최고인 매출 239억원을 기록했다.
국내 산업계도 올해부터 AI 도입이 급증하며, 데이터셋 구축 문의가 급증하고 있다. 크라우드웍스 관계자는 "최근 국내 업계도 데이터의 중요성을 입을 모아 강조하는 상황"이라고 전했다.
4월 말 국내 기업 비즈니스 특화 소형언어모델(sLM) '웍스원(WorksOne)'을 공개하며, 자체 데이터를 구축했다고 밝힌 바 있다. 이후 해당 데이터셋을 구매하겠다는 문의가 몰려 들었다.
특히 국내는 분야별 특화 소형언어모델(sLM)이 주를 이루고 있다. 따라서 고품질 데이터 선호 경향은 더 두드러진다. "자체 구축 고품질 데이터는 확실히 시장 가치가 있다는 것을 느꼈다"라는 소감이다.
크라우드웍스의 데이터셋은 단순 기계 번역이 아닌, 전문 작업자를 통한 '직접 구축' 방식으로 구축한 고품질 한국어 데이터셋이다. 기업 비즈니스 환경에서 자주 사용하는 언어를 기반으로 1만개에 달하는 데이터셋을 갖췄다.
금융, 유통, 공공기관 등 비즈니스별로 요구되는 데이터 특징을 분석하는 것부터 자주 사용하는 비즈니스 용어, 표현 등을 반영한 데이터셋을 구축하는 데 숙련된 전문 데이터 인력을 투입했다는 설명이다.
나아가 AI 모델 학습을 위한 데이터 수집과 가공, 미세조정을 위한 데이터 구축은 물론 맞춤형 모델 개발, 모델 평가 및 검증 등 풀 스택 서비스로 영역을 확장하겠다고 밝힌 바 있다.
국내를 넘어 해외로 타깃을 넓히고 있다. "지난달 파리 '비바테크' 참가 등 유럽 전시 외에도, 오는 8월 열릴 미국 AI 전시회에도 참여하는 등 해외 사업 확장에 적극 나설 것"이라고 밝혔다. 비바테크에서는 기욤 룩셈부르크 왕세자가 국내 기업 부스에 방문하는 등 유럽 시장의 관심도를 확인했다고 전했다.
이어 "특히 유럽 시장은 규제가 엄격해 1순위 목표라고 말하기는 어렵지만, 탄탄한 기술력으로 수요에 충분히 대응할 수 있을 것"이라며 자신감을 보였다.
한편 크라우드웍스는 최근 레노버와 MOU를 맺고 고성능 컴퓨팅 인프라를 활용한 기업 맞춤형 LLM 개발 사업을 가속하기로 했다.
장세민 기자 semim99@aitimes.com
