(사진-오픈AI)
(사진-오픈AI)

오픈AI가 지난주 '보이스 엔진' 상표를 출원한 데 이어, 음성 복제가 가능한 인공지능(AI) 모델을 공개했다. 하지만 안전을 이유로 '소라'처럼 일부 제한된 테스터들만 접근할 수 있다.

벤처비트는 29일(현지시간) 오픈AI가 공식 블로그를 통해 AI 모델 '보이스 엔진'을 미리보기(프리뷰)로 공개했다고 발표했다. 

이 모델은 2년간 개발된 것으로, 이미 '챗GPT'의 음성 기능 및 소리 내어 읽기에 적용 중이다. 

하지만 이번에 공개된 모델은 오픈AI 최초로 음성 복제가 가능하다. 15초 분량의 음성 클립을 입력하면 원래 목소리와 매우 유사한 자연스러운 음성을 생성해 준다는 설명이다.

오픈AI는 이 기능이 장애가 있거나 교육용으로 유용하다고 강조하고 있다. 또 "신뢰할 수 있는 소규모 파트너 그룹"에만 이 기술을 제공했다고 밝혔다.

여기에는 교육 업체 에이지 오브 러닝, 비디오 번역 업체 헤이젠, 의료용 도구 업체 디마지, 언어 장애용 장치 업체 리복스, 의료 및 교육 장치 업체 라이프스판 등이 포함됐다.

하지만 일반 공개는 아직 결정하지 않았다. 동영상 생성 AI '소라'와 같이 각국 선거를 앞두고 악영향을 미칠지 모른다는 우려에 따른 것이다.

오픈AI는 “우리는 음성 함성 오용의 가능성이 있기 때문에 더 광범위한 배포에 대해 신중하고 정보에 입각한 접근 방식을 취하고 있다"라며 "다양한 의견 청취 및 소규모 테스트 결과를 바탕으로 기술을 대규모로 배포할지와 방법을 결정할 것”이라고 밝혔다.

실제로 올해 초에는 일레븐랩스의 음성 복제 기술을 사용해 조 바이든 대통령의 목소리를 복제한 사건이 발생, 연방 정부가 조사에 나섰다.

더불어 오픈AI는 음성 엔진 테스트에 참여하는 파트너는 무단 사칭을 금지하고 음성 제공자의 사전 동의를 요구하는 사용 정책을 준수해야 한다고 밝혔다. 또 생성된 복제 음성에는 귀에 들리지 않는 워터마크를 삽입한다고 밝혔다.

보이스 엔진 출시를 알리는 트윗 (사진=X, OpenAI)
보이스 엔진 출시를 알리는 트윗 (사진=X, OpenAI)

한편 음성 복제 기술은 일레븐랩스와 레플리카 등 스타트업을 비롯해 마이크로소프트, 구글, 아마존, 메타 등 거의 모든 빅테크가 참여한 분야다. 

샘 알트먼 CEO는 얼마 전 팟캐스트 인터뷰를 통해 "올해 GPT-5 출시에 앞서 놀라운 새 모델을 출시할 것"이라고 밝혔으며, 바로 다음 날 미국 특허청에 보이스 엔진 상표권을 출원했다.

즉 오픈AI가 이를 공개한 것은 추후 출시할 AI 음성 비서를 위한 기반으로 볼 수 있다. 또 소라에도 음성 복제로 목소리 기능을 추가할 뜻도 밝힌 바 있다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지