콜센터 직원의 억양을 실시간으로 표준 억양으로 변환하는 ‘액센트 번역’ AI가 나왔다.
퓨처리즘(Futurism)은 23일(현지시간) 미국 스타트업 새나스(Sanas)가 실시간 음성을 특징 없이 비슷한 억양의 음성으로 변환하는 AI 기술을 활용해 콜센터 직원의 출신 국가나 인종에 상관없이 백인 미국인 처럼 들리는 합성 억양을 제공하는 액센트 번역 AI를 출시했다고 보도했다.
이 기술은 콜센터 직원을 미국인처럼 보이게 해서, 콜센터를 미국이 아닌 인건비가 저렴한 해외에 구축 가능하도록 한다. 새나스는 이 기술로 3200만 달러 규모의 투자를 확보한 것으로 거기에 큰 비즈니스 기회가 있다고 판단했다. 또한 소비자 영상 및 음성 통화의 액센트를 변경하는 콜 센터를 넘어 영화와 TV에 확장하기를 원한다. 궁극적으로는 음성을 표준 미국 영어 대신 원하는 억양의 음성으로 번역하는 것을 목표로 한다.
그러나 액센트 번역을 통해 합성된 음성이 그렇게 인간적으로 들리지 않는다. 인도 콜센터 직원을 대상으로 한 연구를 수행한 토론토 대학의 키란 미르칸다니(Kiran Mirchandani)는 억양이 있는 콜센터 직원에게 인종차별을 하거나 화를 내는 유형의 사람들이 로봇과 같은 소리를 들으면 폭력적으로 될 가능성이 크다고 예측했다.
키란은 "직원과 고객 사이에 '앱'이 배치될 때 직원이 더 비인간화되면 고객 인종차별이 증가할 가능성이 있다"며 "특히 앱에서 오류가 발생하는 것은 의심의 여지가 없기 때문" 이라고 말했다.
새나스는 콜센터 직원이 웹 사이트 에서 ‘표준 미국식 영어’처럼 들리게 할지 여부를 선택할 수 있다고 주장한다. 그러나 콜 센터 작업은 고객 피드백에 깊이 의존하기 때문에 고객이 액센트가 없는 AI 버전의 음성을 선호한다면 직원이 선택할 기회는 없어질 것이다. 세인트루이스에 있는 워싱턴 대학의 사회학 교수인 위니프레드 포스터(Winifred Poster)는 "콜센터의 노동 과정에는 기술 면에서 노동자가 선택하는 것이 거의 없다"고 말했다.
AI타임스 박찬 위원 cpark@aitimes.com
