"플리토의 언어 데이터 기술은 글로벌 빅테크를 능가한다고 자신합니다. 그리고 언어 데이터는 앞으로 인공지능(AI) 기술 개발의 핵심이 될 것입니다."
이정수 플리토 대표는 최근 언어 데이터의 글로벌 수요가 급증, 해외 매출이 부쩍 늘어났다고 6일 밝혔다.
현재 미국에서 가장 많은 해외 매출을 내고 있다. 일본도 흑자로 돌아섰다. 특히, 일본은 '언어능력'에 대한 가치를 높이 평가하는 경향이 있기 때문에 유리하다고 전했다. 중국도 주요 시장으로, 상해를 시작으로 비즈니스를 확장 중이다.
특히, 최근 음성 데이터에 대한 글로벌한 수요 증가를 실감 중이다. 이제 AI 서비스는 음성 위주로 확대되기 때문이다.
이런 트렌드는 차세대 핵심인 피지컬 AI와도 연결된다. 로봇 등 하드웨어에 AI를 결합하면 결국 음성으로 제어해야 하는데, 이때 다양한 언어와 발음을 정확히 인식하기 위해서는 음성 데이터 학습이 필수적이기 때문이다.
하지만 언어 데이터 기술은 생각보다 간단하지 않다고 전했다. 우선, 기업의 사업 단계에 따라 필요로 하는 음성 데이터의 종류가 달라진다.
AI 모델 사전 학습에는 데이터 품질보다는 '양'이 우선이라고 강조했다. AI도 사람처럼 듣고 인지하는 데이터의 양이 많을수록 성능이 빠르게 향상하기 때문이다.
그러나 데이터의 양뿐만 아니라, 품질을 해결하는 문제도 중요하다고 전했다.
예를 들어, AI 음성 인식 모델 제작에서 의외로 애를 먹는 부분은 '아이의 음성 데이터'라고 전했다. 아이들의 발화 데이터는 어른보다 양이 무척 적기 때문에, 실제로 음성인식이 잘 작동하지 않는 경우가 많다는 것이다. 특정 언어나 사투리 등의 데이터도 마찬가지다.
이 대표는 "단적인 예로, 구글 번역기도 모든 언어에서 음성인식을 지원하는 것은 아니다"라며 "벨라루스 언어 등 데이터가 부족한 언어의 경우, 텍스트 입력은 가능하지만 음성은 그렇지 않다는 것을 확인할 수 있다"라고 말했다.
하지만, AI 솔루션은 이제 전 세계에서 활용되기 때문에 이런 문제가 반드시 해결해야 한다고 전했다. 이 때문에 이전과는 달리, 소수 언어에 대해서도 음성 데이터 수요가 증가하고 있다는 설명이다.
그는 "미국 기업들도 일부를 제외하고는 실제로는 반도체나 솔루션이 아닌 데이터 부분에서 주로 수익을 내고 있다"라고 말했다.
그러나 국내는 해외 기업에 비해 데이터 정제 기술 경쟁력이 약한 편이라고 지적했다. 플리토는 자체 플랫폼 구축으로 이 문제를 해결했다고 밝혔다.
이 대표는 "초반 5년간 단독 플랫폼을 구축하는 데 집중했다"라며 "다양한 발화(음성) 데이터가 축적될 수 있는 것도 플랫폼 덕분"이라고 말했다.
플리토 앱에서는 게이미피케이션(gamification) 형식으로 리워드를 제공하는 미션이 수시로 열리고 있다. 특정 단어를 짧게 녹음해서 업로드하는 등 간단한 임무를 수행하면, 현금처럼 쓸 수 있는 보상을 받는 게임 형식이다.
"현재 글로벌 1400만명 유저를 확보하고 있으며, 그만큼 다양한 국가의 다양한 언어 데이터를 확보할 수 있다"라며 "그 결과 플리토의 솔루션은 물론, 데이터 자체를 찾는 기업도 많아졌다"라고 말했다.
물론, 전 세계 수억명의 사용자를 보유한 오픈AI 등 빅테크들이 데이터 수집에 유리한 것은 사실이다. 하지만, 이 부분에 대해서는 크게 걱정하고 있지 않다고 설명했다.
그는 "챗GPT와 음성 대화를 진행하면 통역 요청 시 실시간 입력 출력이 원활하지 않은 것을 확인할 수 있다"라며 "이는 오픈AI가 아직 이 문제를 크게 고민하고 있지 않고 있다는 증거"라고 전했다.
"하지만, 플리토는 실시간을 넘어 맞춤형 AI 번역과 통역까지 지원할 수 있다는 것이 강점"이라며 "특정 인물의 발화 습관이 담긴 영상 링크, 또는 평소에 작성하는 업무 문서 등을 기반으로 맞춤형 AI 통역 엔진을 제공하는 것까지 가능하다"라고 말했다.
이처럼 데이터에 초점을 맞춘 결과, 통역의 정확도가 현저히 올라갔다고 강조했다. 단순히 API를 결합한 형태와는 성능 차가 날 수밖에 없다.
그 결과, 플리토는 국내외 컨퍼런스 등에서 가장 많이 찾는 AI 통역 솔루션으로 자리 잡았다고 강조했다.
"국제적으로 인지도가 올라가며 에피소드도 늘어났다"라며 "최근, 도널드 트럼프 미국 대통령의 아들인 에릭 트럼프의 트위터 계정에 일본 행사 참여 사진이 게재됐는데, 해당 현장에도 플리토 솔루션이 이용됐다"라고 밝혔다.
이런 언어 데이터 기술로 최근에는 과학기술정보통신부 주관 '독자 AI 파운데이션 모델' 프로젝트에서 최종 5개에 포함된 업스테이지 컨소시엄에 참여했다.
"업스테이지도 그렇지만 플리토 등 참여 기업들 모두 'AI'만을 위해 창업한 회사가 대부분"이라며 "그만큼 강점을 가질 수밖에 없다고 생각한다"라고 말했다.
이 대표는 "다국어 데이터 기술을 기반으로 한국의 범용 대형언어모델(LLM)을 개발하고, 소형언어모델(sLM)을 만들고, 장기적으로는 수출까지 바라보고 있다"라고 밝혔다.
이어 "플리토는 13년 전부터 데이터의 중요성을 강조해 왔다"라며 "앞으로도 좋은 데이터를 기반으로 좋은 솔루션을 제공하겠다"라고 전했다.
장세민 기자 semim99@aitimes.com
