오픈AI가 지난 3월 공개한 텍스트-오디오 생성 AI ‘보이스 엔진(Voice Engine)’을 아직도 정식 출시하지 못하는 이유에 대해 설명했다. 선거를 맞아 목소리 딥페이크를 막기 위해 안전 조치를 계속 강화 중이라는 내용이다.
오픈AI는 7일(현지시간) 홈페이지를 통해 텍스트-오디오 생성 AI ‘보이스 엔진’을 위한 안전 강화 방침을 발표했다.
우선 "이 기술이 출시되든 그렇지 않든, 전 세계 사람들이 이를 이해하는 것이 중요하다"라며 "우리는 모델이 어떻게 작동하는지, 이를 연구와 교육에 어떻게 사용하는지, 그리고 이와 관련된 안전 조치를 어떻게 구현하고 있는지를 설명하고자 한다"라고 밝혔다.
2022년 말부터 개발을 시작한 보이스 엔진은 15초 분량의 음성 클립을 입력하면 원래 목소리와 매우 유사한 자연스러운 음성을 생성해 준다. 여러 언어로 설득력 있게 사람처럼 들리는 음성을 생성할 수 있다.
이 기술을 신뢰할 수 있는 소규모 파트너 그룹에만 피드백을 받기 위해 제공했으며, 일반에 대규모로 배포할지 여부와 방법은 여전히 고민 중이라고 밝혔다.
따라서 오픈AI는 은행 계좌 접근을 위한 음성 기반 인증을 단계적으로 폐지하고, 개인의 음성을 AI에서 보호하는 정책을 탐구하며, AI의 위험에 대해 대중에 경고하고, 사용자가 실제 콘텐츠와 합성 콘텐츠를 구별할 수 있도록 콘텐츠 추적 개발을 가속화하고 있다고 밝혔다.
특히 보이스 엔진에 최신 모델인 'GPT-4o'를 탑재하면 새로운 위협이 될 것이라고 털어 놓았다. 이에 따라 내부적으로 "사회 심리학, 편향 및 공정성, 허위 정보 등 다양한 분야에서 알려진 위험과 예기치 않은 위험을 식별하고 해결하기 위해 GPT-4o에 대해 적극적으로 레드 팀 작업을 수행하고 있다"라고 강조했다.
또 "우리는 정부, 미디어, 교육, 시민 단체 등 미국 및 국제 파트너들과 지속적으로 협력, 피드백을 반영하고 있다"라고 전했다.
이처럼 오픈AI는 이번 발표를 통해 노력한다는 점을 어필했다. 또 같은 이유로 지난 2월 선보인 동영상 생성 AI '소라'도 일반 공개를 미루고 있다.
하지만 비즈니스 인사이더는 이런 시도에도 불구, 음성복제에 대한 우려는 여전히 남아 있다고 지적했다.
조 바이든 대통령의 AI 최고 책임자인 브루스 리드는 음성 복제가 밤잠을 설치게 하는 가장 큰 문제라고 밝힌 바 있다. 또 미국 연방거래위원회(FTC)는 지난 3월 사기꾼들이 AI를 이용해 음성 복제 도구를 사용, 작업을 고도화하고 있다고 경고했다.
박찬 기자 cpark@aitimes.com
