미국의 오디오 기술 스타트업 핀드롭 시큐리티가 인공지능(AI)으로 생성된 음성을 감지할 수 있는 새로운 도구를 공개했다. 이회사는 정확도가 99%라고 주장했는데, 이는 앞으로 검증해야 할 문제다.
블룸버그는 26일(현지시간) 핀드롭이 오디오를 분석, 진짜 사람 음성인지 사람을 모방한 딥페이크 음성인지를 식별하는 도구를 출시했다고 보도했다.
발라 수브라마니얀 핀드롭 공동 설립자는 "인간은 특정한 소리를 내어 말을 하고, 그 소리가 단어를 형성한다"라고 설명했다. 하지만 기계는 인간과 같은 방식으로 소리를 내지는 않으며, 때때로 인간의 입이 소리를 내는 물리적 한계를 벗어나는 변형을 생성하기도 한다.
음성 오디오에는 매초마다 8000개의 디지털 샘플링이 포함되기 때문에, AI로 생성된 지점을 발견할 수 있는 부분이 수천개라는 지적이다.
수브라마니얀 설립자는 “더 많은 오디오를 얻을수록 이런 현상이 더 두드러진다”라며 “모든 인간이 비슷한 방식으로 소리를 내기 때문에, 우리 탐지 소프트웨어는 언어에 구애받지 않는다”라고 설명했다.
이를 통해 핀드롭은 오디오 탐지 도구가 99%의 정확도로 AI 생성 오디오를 식별할 수 있다고 주장했다.
하지만 업계에서는 AI 탐지 기술의 한계에 대한 논란이 이어지고 있다. 이제까지 등장한 데다수딥페이크 감지 프로그램은 상당한 정확도를 내세웠지만, 대부분은 형편없는 성능을 보였다.
문제는 탐지 기술이 발전하는 것과 동시에 딥페이크 기술도 진화한다는 점이다. 또 핀드롭과 같은 회사의 딥페이크 식별 알고리즘을 회피하도록 훈련할 수도 있다.
일부에서는 AI 문제를 해결하기 위해 또 다른 AI 기업이 늘어나는 것에 대해 문제를 제기하고 있다.
박찬 기자 cpark@aitimes.com
