(사진=셔터스톡)
(사진=셔터스톡)

딥시크의 추론 모델 'R1'에 대한 관심이 급증하며, 오픈AI 'o1'과의 비교가 본격적으로 이뤄지고 있다. 이미 딥시크가 공개한 벤치마크는 물론, 새로 둥장하는 벤치마크에서도 둘을 비교하는 사례가 늘어나고 있다. 

우선 딥시크가 지난 20일(현지시간) 공개한 벤치마크에 따르면, R1은 6가지 벤치마크 중 3개에서 o1을 넘어 최고 성적을 거뒀다. 하지만 o1도 3개 분야에서 1위를 차지, 결국 벤치마크에서는 우열을 가리지 못했다.

R1은 수학 경기대회 문제를 테스트하는 'AIME'에서 79.8%, 500개 이상의 인터렉티브 수학 문제로 구성된 'MATH-500'에서 97.3%, AI 모델의 실제 소프트웨어 문제 해결하는 'SWE 베리파이드(Verified)' 49.2% 등을 기록, o1을 근소한 차로 앞섰다.

반면, o1은 코딩 능력을 평가하는 '코드포스(codeforce)'와 박사 수준의 과학 문제 추론을 평가하는 'GPQ 다이아몬드', 모델의 상식을 테스트하는 MMLU에서 R1을 앞섰다.

R1 벤치마크 결과 (사진=딥시크)
R1 벤치마크 결과 (사진=딥시크)

최근 최신 모델들의 테스트 베드로 자리 잡은 사용자 선호도의 '챗봇 아레나'에서도 엎치락뒤치락 경쟁이 이어지고 있다. 27일 현재 IM아레나 레더보드에서는 '제미나이 2.0 플래시 싱킹(1382점)'이 1위를 차지했다. 

하지만, R1과 'GPT-4o'은 각각 1357점과 1365점의 근소한 점수차라, 투표 결과에 따라 언제든지 선두가 바뀔 수 있다. 또 응답 형식과 길이와 같은 요소를 제외한 '스타일 제거(StyleCtrl)'를 적용하면 R1은 제미나이 및 GPT-4o 등과 공동 1위를 기록 중이다.

IM아레나 사용자 선호도 리더보드 (사진=IMARENA)
IM아레나 사용자 선호도 리더보드 (사진=IMARENA)

이 밖에도 역대 가장 높은 난이도로 알려진 AI 안전센터의 'HLE' 벤치마크에서는 R1이 9.4%의 정답률로, o1의 8.3%를 제치고 1위를 차지했다.

이에 따라 두 모델의 장점 분석도 등장했다. 벤치마크에서도 확인했듯, 성능을 따지는 것은 큰 의미가 없다.

그래서 많은 전문가들은 R1의 장점으로 ▲오픈 소스라는 점과 ▲비용 효율성 등을 꼽고 있다.

누구나 R1에 접근, 맞춤형으로 미세조정해서 사용할 수 있다는 것은 개발자 커뮤니티가 가장 반기는 점이다. 실제로 며칠 새 관심이 부쩍 높아지며, 이틀 전 10만여건에 달했던 다운로드 수가 15만건까지 늘어났다. 폭발적인 인기다.

또 딥시크는 R1의 베이스 모델인 'V3'가 엔비디아 'H800' GPU 기반 데이터센터에서 2개월 동안 약 557만달러(약 82억원)라는 비용으로 훈련했다고 밝혀, 업계를 뒤집어 놓았다. 이는 '라마 3.1' 훈련 비용의 10분의 1 수준이기 때문이다.

R1도 '전문가 혼합(MoE)' 아키텍처를 채택, 전체 매개변수 중 약 340억개만 활성화하도록 설계해 추론 비용과 메모리 사용량을 o1에 비해 90% 이상 줄이면서 높은 성능을 유지하는 것으로 알려졌다.

특히 R1을 기반으로 더 작은 모델에 성능을 이전하며 비용은 더 줄인 '증류(Distillation)' 모델 군에는 매개변수가 1.5B, 7B(이상 큐언), 8B(라마) 등도 포함됐다. 온디바이스나 엣지 장치에서도 활용할 수 있다는 말이다.

물론, 이에 대한 의문도 제기됐다. 실제로 딥시크는 미국의 기술 제재가 강화되기 전 10만개의 GPU를 확보했다고 밝힌 바 있으며, 일부 전문가는 알려진 대로 557만달러만 투입해 2개월 만에 V3를 개발했다는 것은 사실이 아니라고 지적했다.  

전문가들은 o1의 장점으로는 '안전성'을 가장 먼저 꼽았다. 폐쇄형 모델이고 상업적으로 활용되는 만큼, 출시에 앞서 외부 레드팀과 비공개 테스트 등을 통해 안전과 규정 준수에 많은 시간을 들였기 때문이다.

또 R1은 얀 르쿤 메타 수석과학자가 "R1은 중국의 승리가 아니라, 오픈 소스의 승리"라고 지적한 것처럼 오픈 소스가 폐쇄형 모델보다 유리하다는 논쟁을 다시 일으키고 있다. 특히 얼마 전까지 이 논쟁에서는 항상 오픈 소스를 옹호하는 목소리가 컸는데, 이제는 조금 양상이 바뀌었다.

이는 지난해 중국이 군사적인 목적을 위해 오픈 소스 모델을 활용한다는 소식이 알려진 데 따른 것이다. 일부는 R1과 같은 뛰어난 모델이 군사용으로 사용될 위험을 경고하며, 공개적으로 오픈 소스에 반대하는 목소리까지 내고 있다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지