(사진=셔터스톡)
(사진=셔터스톡)

오픈AI가 지난 3월 공개한 텍스트-오디오 생성 AI ‘보이스 엔진(Voice Engine)’을 이달 말 알파 버전으로 공개한다는 소식이다.

톰스가이드는 19일(현지시간) 샘 알트먼 오픈AI CEO가 X(트위터)를 통해 이달 말에 'GPT-4o'의 고급 음성 모드 서비스인 ‘보이스 엔진’ 알파를 출시할 것으로 밝혔다고 보도했다.

2022년 말부터 개발을 시작한 보이스 엔진은 15초 분량의 음성 클립을 입력하면 원래 목소리와 매우 유사한 자연스러운 음성을 생성해 준다. 지난 3월 처음으로 개발 사실을 공개했다.

이를 통해 여러 언어로 설득력 있게 사람처럼 들리는 음성을 생성할 수 있다. 특히 감정과 비언어적 신호를 이해하고 대응할 수 있어, AI와의 실시간 자연스러운 대화가 가능하다고 강조했다.

GPT-4o 모델의 보이스 엔진은 사용자 정의 캐릭터 음성을 만들고, 스토리를 전달하면서 음향 효과를 생성하고, 실시간 통역을 제공한다. 향후 사용자가 보는 것을 설명하는 라이브 비전 능력도 제공할 예정이다. 

(사진=X)
(사진=X)

하지만 지난 5월 목소리 딥페이크를 방지하는 안전 조치를 강화하기 위해 보이스 엔진의 정식 출시를 미룬다고 밝힌 바 있다. 홈페이지를 통해 텍스트-오디오 생성 AI ‘보이스 엔진’을 위한 안전 강화 방침을 발표하기도 했다.

이 기술을 신뢰할 수 있는 소규모 파트너 그룹에만 피드백을 받기 위해 알파를 제공할 예정이며, 일반에 대규모로 배포할지 여부와 방법은 여전히 고민 중인 것으로 알려졌다.

오픈AI 대변인은 "모든 플러스 사용자들이 가을에 접근할 수 있도록 계획하고 있지만, 정확한 일정은 우리의 높은 안전성과 신뢰성 기준을 충족하는지에 달려 있다”라고 밝혔다.

또 “별도로 시연한 새로운 비디오 및 화면 공유 기능을 출시하기 위해 작업 중이며, 그 일정에 대해서도 계속 업데이트할 예정이다"라고 덧붙였다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지