'증류'가 도둑질인가....딥시크를 차단하는 것이 어려운 이유

임대준 기자
업데이트 2025.02.11 19:35
입력 2025.02.03 18:00
댓글 0

이 기사를 공유합니다

오픈AI가 자사 모델을 활용한 '증류(Distillation)'를 지적재산권(IP) 침해라고 주장하지만, 실제 사례를 찾아내기는 어려우며 법적인 조치는 사실상 불가능하다는 분석이 등장했다. 특히, 인터넷 데이터를 무차별로 크롤링한 오픈AI가 할 소리는 아니라는 비판까지 나왔다.

로이터와 사우스차이나모닝포스트 등은 최근 딥시크가 V3 모델을 개발하며 오픈AI의 'o1'을 베꼈으며 이를 조사 중이라는 데 대해 업계가 회의적인 반응을 보였다고 소개했다.

딥시크의 증류 논란은 지난 28일 트럼프 행정부의 'AI 차르' 데이비드 색스의 발언으로 시작됐다. 그는 "딥시크가 오픈AI 모델을 활용해 기술을 개발했다는 상당한 증거가 있다"라며 이를 처음 언급했다.

동시에 마이크로소프트(MS)의 보안 연구원들이 지난해 가을 딥시크 관련 인물이 오픈AI의 API를 사용해 대량의 데이터를 빼내는 사례를 목격했으며, 이를 오픈AI에 통보했다는 소식이 등장했다.

오픈AI는 "우리는 IP를 보호하기 위한 대책을 실행하고 있으며, 출시된 모델에 포함할 최첨단 역량에 대한 신중한 프로세스를 포함하고 있다"라고 발표했다.

증류는 더 크고 성능이 뛰어난 모델에서 얻은 상대적으로 적은 수의 데이터 샘플(100만 개 미만)로 작은 모델의 성능을 크게 향상할 방법이다.

그러나 이를 발각하기는 쉽지 않다. 특히 사용자가 3억5000만명에 달하는 챗GPT와 같은 인기 있는 서비스에서 일부 트래픽을 감지한다는 것은 '건초더미 속에서 바늘찾기'라는 말이다.

또 메타나 미스트랄 AI와 같은 오픈 소스는 모델을 다운로드해서 사용하기 때문에 아예 감지가 불가능하다. 증류를 통한 기술 유출은 불가피한 일이라는 설명이다.

한 소식통은 이런 일을 방지하기 위한 유일한 방법은 금융 회사가 사업 대상을 식별하는 것과 같이 접속한 개별 IP를 철저하게 파악하고 관리하는 시스템을 적용하는 것이라고 말했다. 이는 바이든 행정부가 실제 검토했던 방식이지만, 트럼프 행정부가 수용할지는 확실하지 않다는 설명이다.

심지어 중국의 IP를 모조리 차단한다고 해도, 이를 우회할 방법은 다양하다는 말이 나왔다. 클라우드 서비스를 제공하는 그로크의 조나단 로스 CEO는 실제로 중국 IP를 모두 차단했지만, 충분하지 않다고 밝혔다. "사람들은 이를 우회할 방법을 찾을 수 있다"라며 "이를 방지할 아이디어가 있어도 결국 고양이와 쥐 게임이 될 것"이라고 말했다.

오픈AI가 IP 도용을 언급할 자격이 있느냐는 말도 나왔다.

구글과 링크드인에 재직한 루츠 핑거 코넬대학교 선임 강사는 "증류는 대부분 AI 회사의 서비스 약관을 위반하는 것이지만, 빅 테크가 이를 지적하는 것은 아이러니하거나 위선적"이라며 "챗GPT도 뉴욕 타임스 서비스 약관을 위반했다"라고 지적했다.

기술 분석가인 벤 톰슨은 "증류는 널리 퍼진 기술로, 'GPT-4o'에 근접한 모델이 많이 등장하는 것이 그 증거"라며 "딥시크가 오픈AI나 앤트로픽 모델을 추출했는지는 확실하지 않지만, 그렇지 않다면 솔직하게 더 이상할 것"이라고 말했다.

법적으로도 딥시크를 고소해서 이길 확률이 희박하다는 분석이다.

또 오픈AI가 다른 소송에서 주장한 '공정 사용'이 거꾸로 발목을 붙잡을 가능성이 있다는 분석이다, 딥시크가 같은 논리로 반격할 수 있다는 말이다.

임대준 기자 ydj@aitimes.com