MS, 코타나 iOS·안드로이드 서비스 종료
애플, 시리에 남성 목소리 추가
미국식 영어 아니면 X‥ 인도식은 80% 이해 못 해

(사진=셔터스톡).
(사진=셔터스톡).

글로벌 자동 음성인식 시스템(Automatic Speech Recognition, ASR)에 변화가 보이고 있다.

마이크로소프트(MS)는 31일(현지시간) 자사 AI 기반 음성인식 비서 ‘코타나’ 서비스를 iOS와 안드로이드 앱에서 종료하겠다고 발표했다. 애플은 ‘시리’ 영어 버전에서 더 이상 여성의 목소리를 자동설정하지 않기로 결정했다.

그동안 여성을 유순하고 수동적이라는 성 차별적 프레임에 가둔다는 지적을 수용하기로 한 것이다. 그러나 한편으로 인종별로 음성을 인식하는 데 정확도가 떨어져 여전히 편향적이라는 시각에서 자유롭지 못하다.

MS, 한때는 비즈니스 특화형 AI 비서를 꿈꿨지만…

마이크로소프트(MS)의 코타나 서비스가 탑재된 스마트폰. 지난달 31일(현지시간)부터 iOS와 안드로이드 앱 서비스를 중단한 탓에 이제는 볼 수 없는 그림이 됐다. (사진=셔터스톡).
마이크로소프트(MS)의 코타나 서비스가 탑재된 스마트폰. 지난달 31일(현지시간)부터 iOS와 안드로이드 앱 서비스를 중단한 탓에 이제는 볼 수 없는 그림이 됐다. (사진=셔터스톡).

 

MS는 지난 2016년 세계 최대 규모를 자랑하는 비즈니스 인맥 플랫폼 링크드인(LinkedIn)을 261억달러(약 30조원)에 인수했다. 궁극적 목표는 ‘코타나의 진화’였다. 링크드인이 갖고 있는 방대한 소셜 데이터를 코타나에 학습시켜 잘 모르는 분야에 대해 물어도 관련 자료를 제공하는 ‘업무 특화형 AI 비서’로 만들 수 있다는 생각이었다.

그러나 코타나는 줄곧 아마존이나 구글에 밀려 고전을 면치 못했다. 시장조사업체 스트레테지 애널리틱스에 따르면 지난 몇 년 간 세계 AI 음성비서 시장에서 1, 2위를 달리는 기업은 아마존과 구글. 이들은 각각 23.5%와 19.3%의 점유율을 나타내고 있으며, 그 뒤를 이어 바이두(14.6%), 알리바바(13%), 샤오미(11.3%) 순으로 중국기업이 이름을 올리고 있다. 애플의 시리 점유율은 5%, 코타나는 3% 미만인 것으로 집계됐다.

타 기업과의 경쟁에서 맥을 못 춘 MS는 지난해 7월부터 코타나 종료 소식을 조금씩 알리기 시작했다. 그리고 최종적으로 지난달 31일부터 앱 서비스를 중단했다. 앞으로 코타나는 MS 윈도우즈나 오피스365에서 그 명맥을 이어갈 예정이다.

애플, 시리=여자? 이제는 남녀 목소리 선택 가능

애플은 최근 발표를 통해 자사 음성인식 서비스 시리의 목소리를 기존 여성으로 디폴트 설정을 삭제, 남성의 목소리도 추가한다고 밝혔다. 사용자 임의대로 남녀 목소리를 고를 수 있도록 한 것이다. (사진=셔터스톡).
애플은 최근 발표를 통해 자사 음성인식 서비스 시리의 목소리를 기존 여성으로 디폴트 설정을 삭제, 남성의 목소리도 추가한다고 밝혔다. 사용자 임의대로 남녀 목소리를 고를 수 있도록 한 것이다. (사진=셔터스톡).

 

MS와 라이벌 구도인 애플은 최근 자사 AI 음성비서 시리에 두 개의 새로운 음성을 추가했다. iOS를 최신 버전으로 업데이트하면 시리 음성을 남성이나 여성 중 골라 변경할 수 있다. 지금껏 기본 장착돼있던 여성 목소리를 애플이 삭제한 것이다.

2019년 유네스코는 IT 기업을 대상으로 작성한 권고안을 통해 “AI 기반 음성 비서의 목소리가 여성일 뿐이라는 점은 사용자로부터 여성에 대해 부정적인 시각을 심어줄 수 있다”며 “시키면 뭐든지 들어주는 수동적이고 유순하다는 프레임을 지워줄 것”을 당부했다. 또 “간단한 터치 조작이나 무뚝뚝한 명령에도 친절히 응답하는 여성의 목소리는 그 자체로 성 차별을 조장한다”고 덧붙였다.

이렇게 줄곧 제기돼왔던 ‘시리=여성차별’ 문제개선에 나선 애플은 “다양성을 포용하는 것이 회사 방침”이라며 “AI에 차별과 편향을 배제하는 것이 주요 이슈인 만큼 대중이 가장 쉽게 이용할 수 있는 시리부터 수정·보완할 것”이라고 밝혔다.

한편 AI 음성인식 서비스가 여전히 같은 언어라도 인종별로 인식하는 데 차이가 있다는 연구결과가 나왔다. ASR 시스템마저 편향적이라는 문제가 또다시 제기된 것이다. 워싱턴 포스트는 미국 20개 도시 내 100여명의 시민을 대상으로 아마존의 알렉사 스피커와 구글의 구글 어시스턴트 스피커가 얼마만큼 이들의 말을 완벽하게 이해하는 지 실험했다.

그 결과 두 기업이 개발한 스피커는 미국식 영어발음 이외의 억양을 이해할 가능성이 30%를 웃돌았다. 인도식 영어는 80% 이상 알아듣지 못했으며, 아프리카계 미국인의 영어를 듣는 과정에서 오류는 평균 30%, 백인의 경우는 19%에 불과한 것으로 나타났다.

AI타임스 박혜섭 기자 phs@aitimes.com

 

[관련기사] '심박수' 측정까지 가능... 날로 진화하는 AI 스피커

[관련기사] 애플이 AI 스타트업을 가장 많이 인수한 사연은?

키워드 관련기사
  • [르포] 제타뱅크 로봇, 방역은 기본…전시 작품 설명도 ‘척척’
  • AI 강조한 차세대 'Arm v9' 아키텍처'…"머신러닝·DSP 성능 향상"
  • 국내 기업 유럽 진출 쉬워진다… 개인정보보호체계, 유럽 GDPR과 동등 수준으로 인정받아