(사진=셔터스톡)
(사진=셔터스톡)

가족의 목소리를 인공지능(AI)으로 합성해 돈을 요구하는 전화 피싱사기가 기승를 부리고 있는 것으로 나타났다. 우려가 현실이됐다. 30초 분량의 음성만 있으면 동일한 목소리를 만들어내는 음성 생성 AI가 범죄에 악용됐다.

워싱턴포스트(WP)가 5일(현지시간) 이같은 피해 사례를 실었다. 

보도에 따르면 캐나다에 사는 벤자 퍼킨(39세)의 부모는 아들로부터 자동차 사고를 내 미국 외교관이 숨졌고, 자신은 감옥에 있어 돈이 필요하다는 전화를 받았다. 이들은 15000달러(약 2000만원)를 송금했다.

퍼킨은 당일 밤 안부 전화를 했다가 이런 사실을 알았다. 퍼킨의 부모는 그 전화가 이상한 것 같았지만 실제 아들과 이야기를 나눴다는 느낌을 떨칠 수 없다고 말했다. 

퍼킨은 자신의 스노모빌 취미에 대해 이야기하는 유튜브 동영상을 게시한 적이 있지만 사기꾼들이 어디서 자신의 목소리를 훔쳐갔는지 불분명하다고 말했다. 피해자들은 캐나다 경찰에 피해 보고서를 냈지만 돈을 돌려 받지 못했다.

미국 연방거래위원회(FTC) 데이터에 따르면 지난해 친구나 가족을 사칭한 사람들에게 사기를 당한 사례는 3만6000건에 달했다. 이 가운데 5100건 이상이 전화 사기였고 피해금액은 1100만달러(약 143억원) 이상이었다.

전화 사기는 좀처럼 근절되지 않는 범죄지만 최근에는 음성 생성 AI 도구의 발전으로 더욱 정교해지고 있다. 값싼 온라인 AI 도구들은 간단한 오디오 파일을 목소리로 바꾼 뒤 사기꾼이 입력하는 대로 말을 할 수 있게 한다. 

Vishing은 목소리를 흉내내는 사기수법(Voice+phishing)을 말한다.(사진=셔터스톡)
Vishing은 목소리를 흉내내는 사기수법(Voice+phishing)을 말한다.(사진=셔터스톡)

하니 파리드 미 캘리포니아 버클리대 교수는 AI 음성 생성 소프트웨어가 연령이나 성별, 억양 등 사람의 목소리를 독특하게 만드는 요소를 분석하고 방대한 음성 데이터 베이스를 검색해 유사한 음성을 찾아내며 패턴을 예측한다고 설명한다.

그런 다음 사람 목소리의 높낮이와 음색, 발음 등을 재구성해 실제와 흡사한 효과를 낸다. 이런 음성 생성에 필요한 오디오 샘플은 유튜브, 팟캐스트, 광고, 틱톡, 인스타그램 또는 페이스북의 짧은 동영상들에서 가져올 수 있다.

파리드 교수는 “1년 전만 해도 사람의 목소리를 복제하려면 많은 오디오 파일이 필요했다”면서 “지금은 30초 정도의 음성파일만 있으면 사람의 목소리를 복제할 수 있다”고 말했다.

지난해 설립된 AI 음성 생성 스타트업인 일레븐랩스와 같은 기업은 월 5달러에서 330달러 사이의 비용으로 짧은 음성 샘플을 합성된 음성으로 바꿔준다. 무료 체험도 가능하다. 

전화사기에 악용되는 사례가 잇따르자 이 회사는 무료 사용자에게 음성 생성을 금지하고 생성된 음성을 감지하는 도구를 개발해 통합하고 있다고 밝혔다. 

윌 맥슨 FTC 부국장은 이와 관련해 가족이 긴급 상황에 처해 돈이 필요하다는 전화를 받으면 반드시 다른 경로로 확인을 해야 한다고 WP에 말했다. 최근의 전화사기 기술이 사람을 속이기 충분한 수준으로 진화했다는 사실을 염두에 둬야 한다는 조언이다.

파리드 교수는 음성 생성 AI 도구로 인해 피해가 발생할 경우 법원이 이를 개발한 회사에 책임을 물어야 한다고 말했다. 

정병일 위원 jbi@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지