코타나 (사진=셔터스톡)
코타나 (사진=셔터스톡)

인공지능(AI) 비서 '시리'는 2010년 초에 공개되고 애플에 의해 2011년에 아이폰 핵심 서비스로 탑재됐지만, AI 비서 시장에서의 본격적인 경쟁은 2014년이 돼서야 이뤄졌다. 물론 이전에도 구글과 마이크로소프트(MS), 아마존 등이 비슷한 서비스를 연구했고 일부 기능만을 구현한 서비스를 출시했지만, 본격적인 경쟁의 시작은 2014년이었다.

그사이 또 다른 AI 연구 분야로 IBM의 '왓슨'이 퀴즈 프로그램 제퍼디에서 우승하고, 구글과 제프리 힌튼 교수팀이 각각 신경망을 이용한 AI로 놀라운 이미지 인식 성능을 보여주는 등 엄청난 사건이 발생했다. 시간적 흐름으로 보면 이번 회에 제퍼디나 이미지 인식 신경망을 먼저 이야기해야 하지만, 시리 이야기의 연속성을 위해서 경쟁 서비스인 MS의 코타나, 아마존의 알렉사, 구글의 어시스턴트 등장과 다른 기업들의 AI 비서들, 시리의 이후 이야기 등을 먼저 다룬다.

애덤 체이어와 동료들이 SRI로부터 분사하고 휴대폰 기반의 AI 비서 소프트웨어를 개발하던 2000년대 후반, MS와 아마존 그리고 구글에서도 비슷한 서비스에 대한 연구가 진행되고 있었다.

MS는 2021년 초 뉘앙스 커뮤니케이션(Nuance Communications)를 197억달러(약 22조)에 인수했다. 이는 2016년의 링크드인 인수 이후 MS 사상 두번째로 큰 인수 계약이라 관심을 모았지만, 사실 삼성전자도 2014년에 인수를 추진한 적이 있을 정도로 뉘앙스는 자연어 처리(NLP) 및 음성인식 AI 기술 분야에서 확고한 위치를 차지하고 있다.

뉘앙스의 근원을 쫓아가다 보면 시리처럼 여기에도 SRI가 등장한다. SRI가 음성을 디지털 텍스트로 변환하는 솔루션을 개발했고, 이 솔루션을 기반으로 하는 벤처 기업을 분사하며 1994년에 뉘앙스를 설립했기 때문이다. 이 회사는 2005년에 스캔소프트(ScanSoft)에 합병됐다.

“AI는 더욱 빨리 발전해 2045년이면 인류 지능의 총합을 넘어설 것”이라는 AI '특이점'을 주장한 것으로 유명한 레이 커즈와일이 개발한 광학문자인식 시스템을 기반으로 발전한 것이 스캔소프트다. 2000년대 초반 음성인식 사업에 진출하며 경쟁사인 뉘앙스를 합병하고, 회사 이름을 피인수 기업인 뉘앙스 커뮤니케이션으로 변경했다. 애플의 시리도 초기에는 뉘앙스의 음성인식 엔진을 사용했고, 삼성 휴대폰의 초기 음성인식 앱인 'S-보이스'도 뉘앙스의 음성인식 엔진을 사용했다.

뉘앙스는 2021년 MS에 인수됐지만, 두 회사의 첫 인연은 2009년으로 SRI와 뉘앙스에서 음성인식, 자연어 처리 그리고 음성합성 프로젝트를 이끌었던 대화형 AI 전문가 래리 헥(Larry Heck)이 연결 고리였다. 사실 MS는 윈도우에서 음성을 인식하고 텍스트로 변환하는 기능을 지원하는 API를 1995년 처음 공개했고 그 이후로도 꾸준히 개발해 왔다. 그러던 중 2009년에 래리 헥이 MS 수석 과학자로 합류하며, 디지털 개인비서 개발에 대한 계획이 수립되고 팀이 구성되며 본격적인 AI 가상 비서 개발이 시작됐다.

헥과 개발팀은 새로운 서비스가 일상 작업을 지원할 뿐만 아니라, 사용자의 습관을 배우고 예측해서 대응하는 기능도 추가해 본격적인 디지털 비서가 되도록 개발해 나갔다. 2014년 4월 MS 개발자 컨퍼런스에서 처음 시연된 AI 비서는 혁신이라기보다는 시리의 모방이라는 느낌을 주기도 했다.

그러나 MS는 빙(Bing)이라는 자체 검색 엔진을 보유해 묻고 답하는 능력이 시리보다는 더 완벽해 보였고, 그래서 큰 찬사를 받았다. 2014년 시연 당시에는 윈도우폰용으로 공개됐는데, 이듬해부터 PC용 윈도우와 게임 콘솔인 X박스 그리고 안드로이드와 iOS로도 확장됐다. 구글에 밀려 고전하던 검색엔진 빙의 성장에도 크게 기여했다.

MS의 AI 비서는 코타나(Cortana)라는 이름을 갖고 있다. 원래 코타나는 게임 콘솔인 X박스의 대표적 게임인 ‘헤일로(Halo)’에 등장하는 AI 캐릭터다. AI 비서를 개발하면서 내부적으로 사용하던 프로젝트 코드명이기도 했는데, 앱이 출시되기 전인 2013년 개발자 모드가 설정된 윈도우폰이 소비자에게 공개되며 코타나라는 기능이 개발 중이라는 것이 알려졌다.

헤일로의 코타나 (사진=MS)
헤일로의 코타나 (사진=MS)

이후 윈도우폰 고객 게시판에서 새로 출시되는 서비스의 이름을 코타나로 유지해 줄 것을 요구하는 목소리가 높아지자, 결국 서비스의 공식 명칭도 코타나로 정해졌다. 또 헤일로 게임의 코타나 목소리를 녹음한 성우를 미국 버전의 AI 비서의 목소리 녹음에도 참여했으며, AI 비서의 말투와 성격도 헤일로의 코타나와 유사하게 유지하려고 노력했다.

코타나는 별도 앱으로 공개되기도 하고, 스카이프와 같은 응용 프로그램에 통합됐으며, 2017년에는 하만 카돈과 협업으로 음성인식 스피커에도 탑재됐다. 그러나 점차 휴대폰 지원을 중지하다가, 다른 응용프로그램에서도 중단됐다. 결국 2023년에는 코타나의 윈도우 앱에 대한 지원을 종료한다는 공식 발표가 나왔다. MS는 윈도우나 빙, 코파일럿(CoPilot) 등에서 음성지원을 하지만, 코타나라는 서비스와 이름은 이제 더 사용하지 않을 듯하다.

아마존의 AI 비서 알렉사(Alexa)는 코타나보다 7개월 늦은 2014년 11월 공개됐다. 시리나 코타나가 사업적 전략 차원에서 개발됐다면, 알렉사는 제프 베이조스 아마존 CEO의 개인적 관심에서 시작됐다. 스타트랙의 열렬한 팬이었던 베이조스는 고등학교 졸업식에서 인류가 우주를 식민지화하는 날을 꿈꾼다는 연설을 했다. 프린스턴대학교 ‘우주탐험 및 개발 학생회(SEDS)’ 회장을 맡았던 그는 2000년에 블루오리진(Blue Origin)이라는 민간 우주 탐사회사를 설립하며 어린 시절의 동경과 꿈에 한발짝 다가가기도 했다.

2010년부터 미래 컴퓨터의 인터페이스에 대해 고민하던 그는 어린 시절 동경했던 스타트렉에서 영감을 받아 음성으로 인터페이스를 하는 컴퓨터를 구현하기로 하고, 2011년 도플러(Doppler)라는 코드명으로 비밀리에 음성제어 컴퓨터 개발을 시작했다.

음성제어 컴퓨터의 개발은 전자책 킨들(Kindle)과 휴대폰인 파이어(Fire)를 개발한 아마존 하드웨어 그룹 랩126(Lab126)이 맡았지만, 음성 분야에 대해서 경험이 많지 않아 거의 바닥부터 시작해야 했다. 결국 아마존은 뉘앙스 출신의 엔지니어들을 고용하고 여러 신생 기업들을 인수했다. 여기에는 클라우드 기반 음성인식 전문 얍(Yap), 음성응답 전문 영국의 에비(Evi), 그리고 음성인식 및 합성 전문 이보나(Ivona) 등이 포함됐다.

그 중 이노바는 의사결정 트리, 신경망 그리고 퍼지 논리와 같은 여러 AI 솔루션을 사용해 음성합성 솔루션을 개발한 폴란드의 신생 기업이었다. 이노바는 2006년 음성 합성기 대회인 블리자드 챌린지(Blizzard Challenge)에서 두각을 드러내며 상용화 제품을 개발해 나갔다. 아마존은 처음에 전자책 킨들의 음성 합성기로 이노바를 검토했는데, 그 과정에서 단순한 음성 합성기가 아닌 음성 비서 시스템으로 개발하기로 했다. 결국 이노바를 인수해서 진행한 프로젝트가 현재의 음성인식 개인비서 알렉사(Alexa)가 됐다.

도플러 프로젝트가 시작되며 소프트웨어인 알렉사를 구동할 수 있는 플랫폼, 즉 하드웨어 기기에 대한 검토도 이뤄졌다. 시리는 휴대폰 기반이었는데, 당시 아마존의 유일한 소비자용 기기는 전자책 킨들이었다. 태블릿 개념의 킨들 파이어(Kindle Fire)나 파이어 폰 등은 겨우 개발 계획을 수립하던 단계였기 때문에 새로운 기기를 검토할 수밖에 없었다.

그렇게 랩126에서는 아마존의 소비자 기기 포트폴리오를 전자책 이상으로 확장하기로 했는데, 알렉사의 플랫폼 기기로 스피커 형태를 결정했다. 스피커는 음성을 듣고 대답하기에 적당했기 때문이다.

음성인식과 합성에 관한 기술은 인수합병으로 어느 정도 확보됐지만, 플랫폼을 스피커로 결정하며 아마존은 원거리 음성인식이라는 새로운 문제를 해결해야 했다. 시리나 코타나는 휴대폰에 탑재되기 때문에 명령을 내리는 사람과 기기 간이 가깝지만, 스피커의 알렉사는 방 안 어디에서나, 그리고 명령과 다른 소리가 겹쳐도 인식해야 했기 때문이다.

그래서 아마존은 방산업체인 레이시온에서 일하던 로힛 프라사드(Rohit Prasad)를 채용, 도플러 프로젝트의 자연어 처리를 총괄하게 했다. 인도 출신의 프라사드는 베이조스와 마찬가지로 어린 시절 스타트렉에 푹 빠졌고, 말하는 컴퓨터에 매료됐다. 레이시온에서 그가 연구하던 분야도 야전에서 회의할 때 내용을 인식하고 텍스트로 기록하는, 즉 원거리 음성인식 및 텍스트화 기술이었다.

결국 랩126의 엔지니어들은 각 방향으로 6개의 마이크와 중앙에 마이크가 하나 달린 하드웨어를 개발했고, 프라사드 팀의 소프트웨어는 주변 소음이나 위치와 관계없이 명령만을 선별해서 포착할 수 있도록 개발됐다. 그렇게 도플러 프로젝트가 진행되며 아마존은 스피커를 원통형으로 개발했는데, 360도 모든 방향을 들을 수 있게 마이크를 배치하기 위해서는 가장 적당한 형태였기 때문이다.

원래 플래시(Flash)라는 이 스피커는 출시 직전 에코(Echo)로 이름이 바뀌었으며, AI 기능을 깨울 수 있는 호출어는 알렉사(Alexa)로 정해졌다. 베이조스는 개발 막바지까지 호출어로 아마존을 사용하기를 주장했지만, 개발자들은 아마존이라는 단어는 일상 대화에서 너무 자주 튀어나올 가능성이 있어 기기 오작동을 유발할 수 있다고 주장하며 다른 호출어를 원했다. 결국, 고대 이집트의 인류 역사상 가장 유명한 도서관이었던 알렉산드리아 도서관을 의미하는 알렉사가 호출어로 결정됐다.

2014년 원래 계획됐던 알렉사 출시가 두차례 연기된 가운데, 그해 여름 출시된 파이어 폰의 실패는 알렉사 팀에 더 큰 압박감을 줬다. 드디어 2014년 11월6일 알렉사가 탑재된 아마존의 AI 스피커 에코가 공개됐다.

휴대폰에 시리나 코타나가 있는데 왜 스피커가 더 필요한가라는 의문도 나왔고, 집안에 놓인 음성인식 스피커로 사생활에 영향을 받을 것이라는 부정적 의견들도 있었다. 그러나 알렉사가 탑재된 에코는 큰 인기를 끌었다. 2014년 11월 알렉사와 에코가 출시될 당시에는 초대받은 고객에게만 판매됐고 2015년 6월에서야 일반 소비자에게도 판매됐다.

에코 초기 버전 (사진=셔터스톡)
에코 초기 버전 (사진=셔터스톡)

한 조사기관은 2015년에만 440만대의 에코가 판매됐다고 추정했다. 초기에 원통형이었던 에코는 이후 하키 퍽 모양의 납작하고 작은 형태로 저가 모델이 공개되기도 했고, 구형과 디스플레이가 장착된 버전 등 다양한 형태로 출시됐다.

음성 명령을 인식하고 다양한 작업을 수행할 수 있었던 알렉사는 외부 개발자들이 다양한 기능 추가할 수 있는 플랫폼으로 ‘스킬(Skill)’이라는 개념을 도입했다. 2019년 기준 10만개 이상의 스킬을 보유해 더욱 다양한 기능으로 확장할 수 있었고, 최근에는 생성 AI 기능이 추가됐다.

또 여러 스마트 홈 기기와 호환성을 높이며 스마트 홈 생태계의 중심으로 자리 잡기도 했다. 알렉사는 에코와 분리돼 TV, 자동차, 로봇 등에 독자적으로 설치되기도 했으며, 스마트 링으로 알렉사를 호출하고 휴대폰으로 접속하는 기기가 공개되기도 하는 등 많은 변화와 발전을 이뤄왔다.

알렉사와 에코의 중요한 의미는 무엇보다 AI 우선형 서비스와 기기라는 점이다. 시리나, 코타나가 휴대폰의 부가 기능으로 개발됐다면, 알렉사와 에코는 부가 기능이 아니라 장치 본연의 기능이자 기본 기능으로 AI를 활용하고 생태계를 확장해 왔다는 점이 가장 중요할 것이다.

문병성 싸이텍 이사 moonux@gmail.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지