(사진=셔터스톡)
(사진=셔터스톡)

출시 초읽기에 들어간 딥시크의 최신 추론 모델 '딥시크- R2'에 대한 정보가 인터넷에 떠돌고 있다. 알려진 대라면 딥시크는 또 한번 서방 국가들에 충격을 던질 것으로 보인다. 이번에는 중국 화웨이의 칩으로 훈련했으며, 오픈AI 'GPT-4o'의 1%도 안 되는 비용으로 추론을 수행하기 때문이다.

사우스차이나모닝포스트 등 중국 매체들은 29일 딥시크-R2에 대한 정보가 인터넷에 유출됐다며 일제히 이를 보도했다.

이는 정보는 지난 25일 중국의 한 커뮤니티 사이트를 통해 등장한 것이다. '핫스팟 체이서'라는 사용자는 '딥시크-R2: 단가 97.3% 하락, 곧 출시, 핵심 목록'이라는 글을 통해 세부 내용을 공개했다.

그는 R2의 기술적 혁신은 세가지 핵심으로 구성된다며 ▲아키텍처 혁신 ▲데이터 엔지니어링 ▲하드웨어 적용 등을 꼽았다.

우선 아키텍처는 독자적으로 개발한 '하이브리드 MoE 3.0'을 채택했다고 밝혔다. 추론 모델과 비추론 모델을 혼합한 형태라는 것이다. 또 매개변수는 1조2000억개이며, 전문가 혼합 방식에 따라 활성화되는 매개변수는 780억개라고 밝혔다.

이는 매개변수가 6710억개인 R1 모델의 두배에 가까운 것으로, 특히 이제까지 공개된 매개변수 중 1조개를 넘는다고 알려진 모델은 처음이다. 즉, 역대 최대 규모의 모델이 된다. 

또 알리바바 클라우드에서 실시한 테스트에서 R2는 장문 텍스트 추론을 처리할 때 토큰 비용이 'GPT-4o'에 비해 97.3%나 감소했다고 밝혔다. 즉, 딥시크는 100만 토큰당 입력 비용이 0.07달러, 출력 비용은 0.27달러라고 소개했다. 

딥시크-R1은 입력 비용이 0.07달러, 출력은 1.10달러였다. R-2는 더 저렴해졌다는 말이다. 

이번에도 '증류(distillation)'를 사용한 것으로 알려졌다. 또 금융이나 법률 등을 포함한 5.2페타바이트(PB) 고품질 데이터셋을 학습, 정확도가 89.7%로 증가했다고 전했다.

여기에 자체 개발한 분산형 학습 프레임워크를 통해 화웨이 '어센드 910B' 칩 클러스터의 활용도를 82% 달성했으며, 컴퓨팅 파워는 FP16 정밀도에서 512페타플롭스(PFLOP)를 기록해 엔비디아 'A100' 클러스터의 91%에 달하는 효율을 기록했다고 밝혔다.

딥시크가 화웨이의 칩만으로 훈련을 진행했는지, 아니면 엔비디아 칩도 혼합했는지는 알려지지 않았다. 그러나 중국산 칩으로 엔비디아의 기존 주력 칩에 버금가는 성능을 보였다는 것은 놀라운 일이다.

여기에 R2는 멀티모달 기능도 갖춘 것으로도 알려졌다. 시각언어모델에 사용되는 '비전 트랜스포머(ViT-Transformer)' 하이브리드 아키텍처를 채택, 객체 분할 작업에서 오픈AI의 CLIP 모델보다 11.6% 뛰어난 성능을 보였다고 전했다. 이를 의료 진단용 사진 분석에 투입한 결과, 흉부 X-레이 판독률이 98.1%의 정확도를 달성했다고 소개했다.

마지막으로 양자화 압축 기술을 통해 정확도 손실을 2% 미만으로 유지하며 모델 크기를 83%까지 줄일 수 있다고 강조했다. 이를 통해 엣지 배포가 가능하다는 설명이다.

중국 언론들도 이는 추측에 불과하며, 실제 내용은 확인할 수 없다고 밝혔다. 그러나 이 내용이 사실이라면, 또 세계를 놀라게 할 가능성이 있다고 강조했다.

특히, 미국 정부의 수출 통제에도 불구하고 이제는 중국이 엔비디아를 바짝 추격할 정도의 컴퓨팅 파워를 갖추게 됐다는 것을 의미한다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지