인공지능(AI) 통역 전문 플리토의 이정수 대표는 간단한 시연으로 번역과 통역의 차이를 설명했다.
구글 번역기에 음성으로 “How can I go to Yeongdeungpo-gu(영등포구에는 어떻게 갈 수 있나)?”라는 문장을 입력했다. 그 결과, ‘영등포’는 ‘London Pool’로, ‘동대문’은 ‘To the Moon’으로 인식했다.
“구글 번역은 한국의 특정 지명을 텍스트로 직접 입력하면 인식이 가능하지만, 발화로 진행하면 정확하게 인식하지 못한다”라는 설명이다.
실시간 통역을 제공하는 기업 상당수는 구글과 같은 글로벌 기업의 API를 조합해 솔루션을 구성하는 경우가 많다고 전했다. 어느 정도의 통역은 가능하겠지만, 치명적인 문제가 발생할 수밖에 없다는 것이다.
이 문제는 AI의 설정 차이 때문에 발생한다. 플리토는 발화 중 ‘고유명사’와 ‘일반 단어’를 구분할 수 있도록 데이터를 학습, 설정해 놓았다. 하지만 일반적인 번역 서비스는 ‘영-한’ 전환으로 설정, AI가 발화자의 모든 말을 영어로 인식한다는 것이다.
이정수 대표는 “AI는 무조건 자기가 알고 있는 단어로 바꿔야한다고 설정돼 있다”라고 말했다. 고유명사에 대해 학습이 안 된 상태이기 때문에 인식 오류가 일어나는 것이다.
플리토의 실시간 통역 서비스 ‘라이브 트랜스레이션’의 수요가 가장 많이 발생하는 곳은 컨퍼런스 등 발표 현장이다. 이때 가장 많이 등장하고 문제가 되는 것이 고유명사다. 이름과 지역, 서비스 이름 등 유형도 다양하다.
이처럼 번역과 통역은 얼핏 비슷해 보이지만, 기술 수준 차이가 상당하다고 밝혔다. 통역은 사람마다 다른 발화 속도와 발음, 억양과 다국어 혼용 등을 모두 커버할 수 있어야 한다.
바로 여기가 플리토의 차별점이다. 이 회사는 '실제 음성 데이터'를 기반으로 AI 통역 및 번역 성능을 고도화해 왔다.
2012년 설립 이래 언어 데이터 구축에 초점을 맞춰, 사용자 동의를 통해 발화 데이터를 축적해 왔다. 이를 AI 번역과 통역 성능 향상에 활용하고 있다.
이 대표는 “만약 인식이 잘 안 된 한국어 발음이 있다면, 해당 단어가 들어간 문장을 다양한 형태로 외국 이용자들에게 보내 성별, 나이대별 다양한 목소리와 발음으로 발화하도록 하고 있다"라고 전했다.
이런 식으로 단어 하나당 300개 이상의 발화 샘플을 수집한다. 즉, 발화 데이터를 수집하고 정제하고 학습하는 체계를 갖췄다.
그 결과 플리토는 최근 국내외 다양한 행사에 통역 서비스를 제공하고 있다. 올해 3월 이후로 수요가 폭증했다. 미국과 일본은 물론 중동까지 출장이 부쩍 늘어났다.
“직원들의 주요 업무가 행사장 모니터링이 됐을 정도”라며 “회사에 출근하는 직원이 눈에 띄게 줄어들 정도로 실시간 통역 수요가 증가하고 있다”라고 말했다. 플리토에 재직 중인 직원은 160여명이다.
특히 컨퍼런스에는 유명 연사의 강연이 많이 진행된다. 이 경우 발화를 직접 녹음하는 것을 꺼리는 경우도 있기 때문에, 실시간 통역과 텍스트 전환까지 해주는 플리토 서비스가 더 긍정적인 평가를 받고 있다고 전했다. 행사가 끝나면 AI로 내용 정리와 요약까지 지원한다.
고유명사 인식에 강한 플리토 기술은 관광 서비스 등에도 안성맞춤이다. 인천국제공항에서도 플리토의 실시간 통역 서비스를 만나볼 수 있다. 서울 관광안내소 내부에는 공식 캐릭터 ‘해치’의 디지털 휴먼 형태와 결합해 통역 서비스를 제공하고 있다.
이정수 대표는 “통역 서비스는 국내외를 가리지 않고 사용자의 범위가 넓어 광고 효과도 좋은 편”이라며 “특히 ‘생활에 정말 필요한 부분’이라는 인식 때문에 다양한 캐릭터(디지털 휴먼)와의 결합 제의도 많이 들어오고 있다”라고 말했다.
완벽한 통역을 위해서 국가별 언어 특성을 파악하는 것도 필수로 꼽았다.
우선 한국어 데이터 구축은 한국지능정보사회진흥원(NIA) 등 정부 기관에서 오랫동안 축적한 공개 데이터가 많은 도움이 됐다고 밝혔다. “정부에서 데이터 구축에 많이 기여할수록 기업의 기술 발전은 더욱 빨라진다”라고 말했다.
반면 최근 진출한 중동 시장은 이런 면에서 어려움이 많다고 전했다. 또 아랍에미리트(UAE)나 사우디아라비아 등은 ‘물’과 같은 간단한 단어를 발화하는 방법이 제각각이기 때문이다.
또 상당수 AI는 사우디 국기에 적힌 코란의 한 구절도 읽지 못한다. 이는 문장이 순서대로 진행되는 것이 아니라, 캘리그라피처럼 위아래로 뒤섞여 있기 때문이다. 또 손글씨를 읽어내는 것은 더욱 어렵다.
이 외에도 일본어는 한자 하나에도 여러 발음이 있다는 점, 중국어는 사투리가 상당히 많다는 점 등을 어려움으로 지적했다,
그럼에도 플리토는 높은 통역 성능을 보장한다고 말했다. 장기간 구축한 데이터 학습 체계를 이용해 부족한 아랍어 데이터를 빠르게 구축해 나가고 있으며, 일본어와 중국어도 여러 경우의 수를 고려해 발화 데이터를 학습하고 있다.
가장 문제가 되는 언어로 영어를 꼽은 것은 의외였다. 이정수 대표는 “사실 영어가 AI 통역의 핵심”이라며 “세상의 많은 사람들이 영어를 못 알아듣고도 알아듣는 척하며 살아가고 있다”라고 말했다.
먼저 영어가 모국어가 아닌 사람들이 영어 발음을 잘 알아듣지 못하는 경우를 들었다. 반대로 영어가 모국어가 아닌 발표자가 영어 발표를 진행해도 비슷한 경우가 발생한다.
이때 AI 통역은 정확한 의미 전달을 통해 정보 평등을 이뤄낼 수 있다고 강조했다.
실제 아부다비 왕세자 등이 참석한 UAE 정부 주최 '월드 유틸리티 콩그레스'에서는 일부 발표자가 통역 서비스를 믿고 영어 발표 대신 모국어로 발표를 진행했다고 전했다.
마지막으로는 플리토 통역의 성능을 테스트하기 위해 ‘몽촌토성’과 같은 어려운 고유명사를 영어 문장에 넣고 발화해 봤다. 한국인도 헷갈릴만한 상황이지만, 플리토의 솔루션은 이를 정확하게 구분해 냈다.
또 스코틀랜드 억양이 강해 미국인들도 알아듣기 어렵다는 영화배우 제이슨 스타뎀의 영상을 재생해 봤다. 영화 중 툭툭 뱉어내는 대사도 술술 알아듣는 모습이었다.
이정수 플리토 대표는 “플리토는 현재 업계에서 AI 실시간 통역으로 압도적으로 높은 평가를 받고 있다”라고 강조했다.
이어 “지금은 AI 통역이 유행처럼 퍼져나가는 단계지만, 내년 이후로는 일상화 단계에 접어들며 필수 서비스로 자리 잡을 것”이라고 예측했다.
또 “말의 진정한 의도는 결국 모국어를 사용할 때 정확하게 전달된다"라며 "소통 단계에서의 의미 왜곡을 최소화하고 발화자에게 편리성을 제공하기 위해 최선을 다하겠다”라고 말했다.
장세민 기자 semim99@aitimes.com
