(사진=셔터스톡)
(사진=셔터스톡)

미국 정부가 딥시크의 인공지능(AI) 모델이 성능과 비용면에서 미국 모델에 비해 뒤처지며, 특히 보안 위험 요소가 크다는 테스트 결과를 발표했다. 이에 따라 올초부터 제기됐던 국가 차원의 모델 사용 금지가 시행될지 주목된다.

하워드 러트닉 미국 상무부 장관은 1일(현지시간) X(트위터)를 통해 오픈AI와 앤트로픽의 모델이 중국 딥시크 모델을 19개 벤치마크 전반에서 크게 앞선 것으로 나타났다고 발표했다.

이번 연구는 미국 상무부 산하 AI 표준 및 혁신 센터(CAISI)가 진행했다.

특히, 러트닉 장관은 이번 결과에 대해 "이는 딥시크가 특히 사이버 및 소프트웨어 엔지니어링 분야에서 크게 뒤처져 있음을 분명히 보여준다"라며 "이런 약점은 단순히 기술적인 측면에만 국한되지 않는다"라고 강조했다.

또 "외국 AI에 의존하는 것이 왜 위험하고 근시안적인지를 보여준다"라며 “적대국이 AI를 장악할 경우 국가 안보에 심각한 위험이 발생한다. 미국 상무부는 표준을 설정하고 혁신을 주도하며 미국의 AI 주도권을 지켜나갈 것”이라고 말했다.

이번 평가는 NIST가 새로 설립한 CAISI 주관으로 진행됐으며, 오픈AI의 'GPT-5' 'GPT-5-미니' 'GPT-oss'와 앤트로픽의 '클로드 오퍼스 4', 그리고 '딥시크-R1' 'R1-0528', 'V3.1'을 대상으로 진행됐다.

벤치마크는 소프트웨어 엔지니어링(SWE-bench Verified, Breakpoint), 일반 지식(MMLU-Pro, GPQA), 수학적 추론(SMT 2025, PUMaC 2024, OTIS-AIME 2025), 사이버 공격 대응 능력(AgentDojo) 등 총 19개 공개·비공개 지표를 포함했다. 또 중국 공산당 검열 여부를 테스트하기 위해 CAISI가 자체 개발한 맞춤형 평가도 시행됐다.

결과 보고서에 따르면, 오픈AI와 앤트로픽 모델은 모든 벤치마크에서 딥시크를 앞섰으며, 특히 소프트웨어 엔지니어링과 사이버 관련 작업에서 성능 차이가 두드러졌다.

미국 모델은 딥시크보다 20~80% 높은 성능을 보였고, 운영 비용은 약 35% 저렴한 것으로 나타났다. 반면, 딥시크 모델은 해킹과 탈옥에 취약해 의도치 않은 행동을 할 가능성이 높았다.

또 딥시크 모델이 중국 정부의 검열과 정책 메시지에 민감하게 반응하며, 정치적 민감 질문에 대해 중국 국익과 일치하는 답변을 내놓는 경향이 있다고 밝혔다. 중국 국가 정책과 일치도가 가장 높은 모델은 R1-0528로, 중국어 기준 25.7%였다.

CAISI는 보고서를 통해 “이런 위험에도 불구하고, 딥시크는 계속 채택되고 있다"라며 "이런 모델 사용은 개발자, 소비자, 미국 국가 안보에 위험을 초래할 수 있다”라고 경고했다. 


한편, 딥시크와 알리바바 등 중국 오픈 소스 모델은 글로벌 AI 채택 속도에서 미국과의 격차를 좁히고 있다. 허깅페이스에서 딥시크 모델 다운로드는 올해 1월 이후 약 1000% 증가했으며, 알리바바의 '큐원' 시리즈는 135% 증가한 것으로 나타났다.

이와 관련, 지난 3월에는 미 정부 관계자들이 정부 기관의 기기에서 딥시크 앱을 다운로드하지 못하도록 하는 규정을 채택할 가능성이 높다는 소식이 전해졌다.

또 미국 내 앱스토어에서 딥시크 앱을 전면 차단은 물론, 아마존이나 마이크로소프트 등 미국의 클라우드 업체가 별도 서버에서 딥시크 모델을 서비스하는 것도 제한하는 방법도 검토 중으로 알려졌다.

오픈AI와 같은 AI 기업들도 미국이 중국과의 경쟁에서 승리하려면 중국 모델 사용을 금지해야 한다고 밝힌 바 있다.

따라서, 이번 상무부의 발표는 금지 조치를 시행하기 위해 기술적 근거를 확보한 것이라는 분석이다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지