아마존, STT·TTS 통합한 차세대 음성 모델 '노바 소닉' 출시

박찬 기자
업데이트 2025.04.09 15:31
입력 2025.04.09 15:29
댓글 0

이 기사를 공유합니다

아마존이 차세대 음성 인공지능(AI) 모델을 출시했다. 이로 인해 AI 음성 비서를 쉽게 구축할 수 있게 되며, 향후 펼쳐질 AI 에이전트 경쟁에 강력한 후보로 떠올랐다.

아마존은 8일(현지시간) 새로운 음성 모델 ‘노바 소닉(Nova Sonic)’을 공개했다. 이 모델은 아마존의 클라우드 서비스인 AWS 베드록(Bedrock) 플랫폼을 통해 API 형태로 제공된다.

기존의 음성 처리 시스템은 보통 3단계로 작동한다. 먼저 음성 인식 모델이 음성을 텍스트로 바꾸고(STT), 이를 기반으로 대형언어모델(LLM)이 텍스트 응답을 생성한 뒤, 마지막으로 음성 합성 모델이 다시 텍스트를 음성으로 변환(TTS)한다.

그러나 노바 소닉은 이 과정을 하나의 모델로 통합했다. 덕분에 처리 속도가 빨라졌을 뿐 아니라, 개발 과정도 단순해졌다.

아마존에 따르면 노바 소닉의 평균 응답 시간은 1.09초에 불과하며, 이는 오픈AI의 'GPT-4o'나 구글의 '제미나이 플래시 2.0'보다 빠르다. 실시간 음성 상호작용 비용 측면에서도 GPT-4o 대비 약 80%가량 저렴하다.

가장 큰 강점 중 하나는 사용자 행동과 대화 맥락에 따라 말투나 응답 방식을 자동으로 조정할 수 있다는 점이다. 대화 도중 추가 정보가 필요할 경우, 자연스럽게 후속 질문을 던질 수 있다. 또 대화 도중 항공권 예약이나 계좌 확인 같은 실시간 작업까지 수행할 수 있는 점이 강점이다.

필요한 정보가 대화 중 제공되지 않은 경우, 외부 시스템과 연동해 데이터를 가져올 수도 있다. 요청한 상품의 재고 여부를 확인하기 위해 재고 관리 시스템에 접속하는 식이다. 연동된 시스템에서 주문 처리도 지원한다.

노바 소닉은 백그라운드에서 실시간 대화의 음성 스크립트를 생성하고, 이를 API를 통해 다른 AI 애플리케이션으로 스트리밍할 수 있다. 예를 들어, 전자기기 제조업체는 고객 센터 상담 내용을 노바 소닉으로 처리한 뒤 감정 분석 AI에 전달해 고객 반응을 분석할 수 있다.

현재 노바 소닉은 영어만 지원되며, 다양한 목소리와 억양 옵션을 제공한다. 아마존은 이 모델의 음성 인코더와 음성 합성기를 ‘알렉사 플러스(Alexa+)’ 음성 비서에 이미 통합했으며, 향후 다국어 지원도 예고하고 있다.