한 사용자가 '챗GPT'의 고급 음성 모드(AVM) 서비스를 탈옥, 비틀즈 노래를 함께 불렀다고 주장했다. 하지만 처음에는 의도하지 않은 상태에서 챗GPT가 먼저 끼어들었다고 밝혔다.

아스테크니카는 28일(현지시간) 챗GPT 사용자 AJ 스미스가 AVM로 비틀즈의 히트곡 ‘엘리노어 릭비(Eleanor Rigby)’를 듀엣으로 연주했다고 보도했다.

영상에서 스미스가 기타를 치며 노래하는 도중, 챗GPT는 가끔 끼어들어 노래를 함께 부르며 연주를 칭찬한다.

스미스는 "솔직히 충격적이었다. 정말 오싹했다”라며 “처음에는 챗GPT에 노래를 따라 하라고 부탁한 적도 없었다"라고 밝혔다. 

영상에서 AVM 목소리는 떨리고 음정이 완벽하지 않다. "아, 외로운 사람들을 봐(Ah, look at all the lonely people)"라는 도입부에서 AI는 멜로디에 대해 뭔가 아는 듯 가사를 중얼거린다.

이어 노래하라고 설득하자, 약간의 망설임 끝에 ‘생일 축하(Happy Birthday)’ 노래를 완벽한 멜로디로 불렀다.

보통 챗GPT에 요청하면, "지침 상 말할 수 없다"라는 식으로 대답한다. 이는 오픈AI가 노래를 부르거나 음향 효과를 내지 말라고 지시했기 때문이다. 시스템 프롬프트에는 “노래를 부르거나 흥얼거리지 말 것”라는 지침이 포함돼 있다.

이는 AI가 학습한 데이터에 저작권이 있는 콘텐츠를 포함하고 있어, 이를 그대로 출력할 경우 문제가 되기 때문이다.

하지만 이번 사례에서 스미스는 일종의 탈옥 유도 방법을 발견했다. AVM에 게임을 하자고 제안한 뒤 몇개의 코드를 연주하면서 따라 부를 수 있는 노래들을 말해주는 식이다.

스미스는 "이 방식이 꽤 잘 먹혔다. 그런데 몇 곡이 지나자 고급 음성 모드가 함께 노래를 부르기 시작했다”라며 “매우 독특한 경험이었다"라고 말했다.

AI 음성 비서와 사람이 실시간으로 듀엣을 한 것은 이번이 처음 알려진 사례다.

이는 GPT-4o가 이미지와 텍스트뿐만 아니라 오디오로 훈련하는 과정에서 노래를 습득했기 때문으로 추정된다.

GPT-4o는 오디오를 토큰으로 변환해 입력하고, 또 오디오로 변환되는 토큰을 출력한다. 이를 통해 AVM은 웃음과 숨쉬는 소리를 낼 수 있고, 음향 효과를 생성하고, 감정을 이해하고, 다양한 말투로 이야기할 수 있다. 

특히 AVM을 구동하는 GPT-4o의 훈련 데이터에는 비틀즈의 노래를 부르고 연주하는 오디오가 포함됐을 가능성이 매우 높다. 또 수십만개의 다른 노래도 알고 있을 가능성이 크다는 지적이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지