인공지능(AI) 음성 비서가 등장한 지는 벌써 15년이 지났습니다. 2010년 선보인 애플의 '시리'는 사용자의 말을 텍스트로 변환, AI로 분석해 대답을 들려주거나 앱을 동작합니다.
이처럼 오래된 기술이 대형언어모델(LLM)과 결합해 크게 업그레이드됐습니다. 더 풍부한 내용을 들려주는 것은 물론, 실시간에 가까운 반응과 인간 같은 목소리를 갖추게 됐습니다. 그리고 지난해부터 AI 음성 기술은 실리콘 밸리에서 가장 핫한 기술로 떠올랐다는 소식입니다.
리서치 전문 CB 인사이트에 따르면 지난해 음성 AI 스타트업에는 21억달러(약 2조8500억원)의 자금이 몰렸는데, 이는 전년 대비 8배 증가한 수치입니다.
앤드류 응 스탠포드대학교 교수도 최근 행사에서 음성 애플리케이션이 가장 저평가된 분야라며 "많은 기업이 엄청난 기대를 걸고 있다"라고 밝혔습니다.
음성은 AI 중 가장 먼저 산업 현장에 도입된 기술로 꼽힙니다. 몇년 전부터 콜센터 직원을 대신하기 위해 많은 기업이 이를 채택했습니다.
그런데 최근 이에 대한 기대감이 다시 커졌다는 평입니다. 바로 이제는 '인간처럼 들리는 목소리'가 핵심으로, 지난해부터 급격한 발전을 이뤘습니다.
지난해 5월 'GPT-4o'를 통해 '고급 음성 모드(AVM)'를 선보인 오픈AI가 이 분야에 불을 지핀 것으로 평가받습니다. 의도치 않게 스칼렛 요한슨 음성 베끼기 논란으로 화제가 됐지만, 이 기능은 실시간 응답과 방해 대응, 다양한 감정적 톤 제공 등으로 강한 인상을 줬습니다.
이어 AI 음성 선두 주자인 일레븐랩스는 11월 대화형 AI를 내놓았고, 지난달에는 2.0 버전을 출시했습니다. 또 지난 6일에는 표현력을 극대화한 '일레븐 v3'라는 모델을 선보였습니다. 이제는 '한숨'이나 '흥분'과 같은 표현도 태그를 통해 구현할 수 있습니다.
지연 시간이 짧아지며 모델의 가격도 저렴해졌습니다. 오픈AI는 지난 12월 GPT-4o API 비용을 최대 87.5%까지 줄였습니다.
무엇보다 AI가 더 이상 로봇처럼 들리는 것이 아니라, 사람과 구분할 수 없을 정도로 업그레이드됐다는 것이 핵심입니다.
케탄 바바리아 이헬스 최고 디지털책임자는 월스트리트 저널과의 인터뷰에서 "갑자기 AI 상담원들이 너무 인간적으로 변하는 걸 느꼈다"라며 "고객들이 둘을 구분하지 못하는 지경에 이르렀다"라고 밝혔습니다.
음성 AI 전문 리걸의 알렉스 레빈 CEO도 "지난 12~18개월 동안 AI 음성 에이전트가 인간 또는 그보다 더 나은 성과를 내는 것을 봤다"라고 말했습니다.
그리고 이는 기업 매출에 도움이 되는 단계로 접어 들었습니다.
라임(Rime)이라는 미국 스타트업은 음성 기술을 도미노피자나 윙스톱과 같은 패스트푸드점에 제공하고 있는데, 이를 통해 지난해 매출이 15% 늘어나는 데 도움이 됐다고 밝혔습니다. 특히, 라임의 목소리는 다른 회사 AI보다 통화를 이어갈 확률이 4배나 높다고 밝혔습니다.
AI가 아닌, 사람이 전화를 받아도 마찬가지입니다. 주문 전화를 걸었을 때 밝고 경쾌한 목소리로 응대하는 것과 그렇지 않은 것은 차이를 만들 수 있습니다. AI는 짜증을 내거나 지치지 않는다는 것이 핵심입니다.
이 때문에 릴리 클리포드 라임 CEO는 벤처비트에 "경쟁사들은 음성 문제를 매출 증가의 마지막 단계로 보는 반면, 우리 고객들은 첫번째 단계로 보는 경향이 있다"라고 밝혔습니다. 그만큼 개인화되고 자연스러우며 실시간으로 반응하는 음성 솔루션이 중요하다는 것입니다.
앞으로 AI 비서가 본격 도입됨에 따라 음성의 중요성은 더 커질 수 있습니다. 아이폰 인기는 기술보다 디자인에 힘입은 바가 큽니다. AI 음성 비서 시대에는 휴대폰을 꺼내지 않고 음성으로만 AI와 소통하는 비중이 커질 텐데, 여기에서 어떤 목소리가 들리느냐는 디자인에 해당하는 중요한 요소입니다.
그래서 최근 등장하는 음성 솔루션은 목소리에 성별과 나이, 출신지 등은 물론, 성격과 기분까지 정하는 옵션을 부여하거나 커스터마이징 기능을 제공하고 있습니다.
일론 머스크 CEO의 xAI도 사람처럼 챗봇이 말할 수 있도록 하는 '프로젝트 실로폰'을 진행 중이라는 보도가 등장했습니다. 이에 따르면 녹음 내용 중에는 "일상에서 슈퍼 히어로가 손을 봐줬으면 하는 악당이 있는가"나 "내일 좀비 종말이 닥친다면 무엇을 가장 먼저 챙기겠는가"와 같은 수십종의 카테고리에 대한 답변을 수집 중으로 알려졌습니다.
"녹음은 마치 친구와 가볍게 대화하는 것처럼 매우 자연스럽게 들려야 한다. 감정 표현, 다양한 억양, 그리고 서로의 말을 끊는 것도 포함된다. 인터뷰처럼 들리지 않도록 주의하라"는 지침이 포함됐다고 합니다.
물론, 이 분야도 경쟁이 치열합니다. 이제는 범용 솔루션을 넘어, 도메인별 경쟁이 벌어지는 단계입니다.
예를 들어, 호텔테크리포트의 최근 보고서에 따르면 투숙객들의 문의를 받고 예약을 담당하는 전문 AI 음성 솔루션 분야에서는 이미 4곳의 주요 회사가 경쟁 중이라고 합니다. 물론, 이를 사용한 사람들의 60~70%는 AI 음성 비서가 호텔 투숙 경험을 개선하는 데 도움이 됐다고 밝혔습니다.
이처럼 AI의 인터페이스는 텍스트에서 음성으로 빠르게 변하고 있습니다. 이제 음성 기능은 편의 제공을 넘어, 챗봇의 개인화와 제품 선택의 기준으로 확장될 것으로 보입니다.
이어 주말 주요 뉴스입니다.
■ "AI 에이전트로 인해 인터넷은 '머신 네이티브'로 변화할 것"
AI 에이전트가 인간을 대신해 웹 사이트에서 작업을 대신하면, 현재 인간 선호에 맞춰 제작된 웹사이트도 바뀔 것이라는 예측입니다. 디자인 요소는 없어지고, 신뢰성이 높은 데이터 구조를 갖추는 '머신 네이티브'로 변할 것이라는 내용입니다.
■ 테슬라, 휴머노이드 로봇 핵심 임원 퇴사...xAI 창립 멤버도 첫 이탈
테슬라에서 9년이 넘도록 로봇과 자율주행차 AI를 개발해 온 핵심 인원이 퇴사했습니다. 개인적인 이유이며 테슬라와 머스크를 믿는다고 강조했지만, 최근 최악인 테슬라 분위기에 찬물을 끼얹은 모양새입니다.
■ 메타·구글 "LLM은 매개변수당 3.6비트 기억...학습 데이터 더 늘면 일반화 능력 강화"
모델의 기억 용량은 한계가 있으며, 이를 넘으면 기억 대신 데이터 패턴 분석을 통한 일반화 능력이 강화된다는 연구 결과가 나왔습니다. AI가 학습한 자료 원본을 그대로 베낀다는 주장에 반발할 근거가 생긴 셈입니다.
AI타임스 news@aitimes.com
