오픈AI가 'GPT-4o'의 음성 모드를 일부 유료 사용자에게 공개했다. 스칼렛 요한슨 목소리 논란 이후 안전 조치를 개선하고 새로운 음성 모드를 도입한 결과다.
테크크런치는 30일(현지시간) 오픈AI가 일부 '챗GPT' 플러스 유료 사용자를 대상으로 '고급 음성 모드'의 알파 버전을 제공한다고 보도했다. 이번 알파 버전은 소규모 사용자 그룹에 제공되며, 올해 가을까지 모든 플러스 사용자에게 점진적으로 배포될 예정이다.
오픈AI는 지난 5월 GPT-4o의 음성 기능을 공개했다. 당시 빠른 반응과 실제 사람과 거의 동일한 목소리로 주목을 끌었지만, 스칼렛 요한슨이 GPT-4o의 음성 중 하나인 ‘스카이’가 자신의 목소리를 무단 도용했다고 주장하면서 논란이 일었다.
이에 오픈AI는 스카이 음성을 삭제하고 당초 6월 출시 예정이었던 GPT-4o의 고급 음성 모드 출시를 연기했다. 그리고 약 두달 뒤, 일부 사용자에게 고급 음성 모드 서비스를 제공하기 시작한 것이다.
이번에 공개된 고급 음성 모드는 멀티모달 모델을 적용, 단일 모델에서 텍스트과 음성 간 변환을 처리해 응답 지연이 크게 줄어든 것이 특징이다. 또 슬픔, 흥분 등 목소리 속 감정적 억양을 감지할 수 있다.
사전 설정된 ‘주피터’ ‘브리즈’ ‘엠버’ ‘코브’ 등 4가지 음성만을 사용할 수 있다. 논란이 된 ‘스카이’ 음성은 더이상 사용할 수 없다.
오픈AI는 무단 도용 논란 이후 안전 노력에 대한 다양한 노력을 기울였다고 강조했다. 45개의 언어를 사용하는 100명 이상의 외부 레드팀과 함께 GPT-4o의 음성 능력을 테스트했다고 설명했다. 테스트 결과가 담긴 안전 보고서는 8월 초 공개될 예정이다.
또 딥페이크 논란을 피하기 위해 노력했다고 덧붙였다. 저작권 문제를 피하기 위해 음악이나 다른 저작권 있는 오디오를 생성하는 요청을 차단하는 새로운 필터를 도입했다는 설명이다.
최근 수노와 유디오 등 음악 생성 AI 회사들이 저작권 침해로 법적 문제에 직면하면서, 이런 조치는 매우 중요하게 여겨지고 있다.
박찬 기자 cpark@aitimes.com
- 오픈AI, 안전 해결 위해 '음성 비서' 출시 한달 연기
- "요한슨-스카이 목소리 음성분석 결과 매우 흡사"
- 오픈AI, 음성비서 기능 대폭 강화한 'GPT-4o' 공개..."gpt2가 이 모델 맞아"
- 못 하는 게 없는 'GPT-4o'..."손뼉 치고 비트박스에 성대모사까지"
- 구글, AI 음성비서 '제미나이 라이브' 출시...GPT-4o '고급 음성 모드'에 대응
- 오픈AI, 챗GPT '고급 음성 기능' 한국어 업데이트 실시
- 오픈AI, '데브데이'서 생태계 확장에 초점...타사 앱에 음성 비서 지원하는 도구 등 공개
- 오픈AI 음성 담당 연구원, 공감형 오디오 AI 스타트업 설립
