딥시크가 긴 컨텍스트 추론 효율을 높이는 메커니즘을 공개했다. 이는 최근 긴 문서 분석 수요 급증에 따른 것으로, 알고리즘 개선은 물론 GPU 최적화 기술을 동원했다. 이를 두고 중국에서는 딥시크의 개발 우선순위가 드러났다는 말도 나왔다.
딥시크는 16일 온라인 아카이브를 통해 '네이티브 희소 어텐션(NSA): 하드웨어 정렬 및 네이티브 학습 가능 희소 어텐션'이라는 논문을 게재했다. 여기에는 량원펑 딥시크 창립자 등 15명이 공동 저자로 이름을 올렸다.
이는 대형언어모델(LLM)에 입력되는 긴 문서 처리를 효율적으로 실행하는 방법에 관한 것이다.
표준 어텐션 메커니즘은 입력 전체를 토큰화, 긴 분량의 문서를 처리하는 데 상당한 계산과 시간, 컴퓨팅을 요구했다. 이 문제를 해결하기 위해 최근에는 일부 의미 있는 토큰만 남기고 나머지는 제외하는 가지치기(pruning) 기술이 많이 사용된다.
딥시크도 비슷하다. 이들이 공개한 NSA는 시간과 메모리를 줄이기 위해 어텐션 행렬을 분해하는 희소 어텐션(sparse attention)'을 활용한다.
이를 위해 ▲토큰 그룹을 요약된 표현으로 압축해 전체 데이터를 처리하지 않고도 패턴을 포착할 수 있도록 하고 ▲중요도 점수를 계산해 가장 관련성 있는 토큰만 유지하며 중요도 점수를 계산해 가장 관련성 있는 토큰만 선택적으로 유지해 전체 컨텍스트를 인식한다. 여기에 ▲슬라이딩 윈도우 브랜치(sliding window branch)로 로컬 컨텍스트를 세밀하게 따로 인식한다.
즉, 전체 데이터 처리는 압축과 가지치기로 간략화하는 동시에 로컬 데이터는 세밀하게 처리해 정확도를 유지하고 효율을 높인다는 내용이다. 연구진은 이를 "NSA는 동적 계층적 희소 전략을 사용해 원시 토큰 압축과 세밀한 토큰 선택을 결합, 전체적 컨텍스트 인식과 로컬 정밀도를 모두 유지한다"라고 설명했다.
이런 알고리즘 특징 외에도 하드웨어 정렬 최적화를 적용한 것이 특징이다. 최신 GPU에 최적화된 특수 커널을 구현, NSA가 추론과 학습 모두에서 지연 시간을 줄이는 것이 특징이다.
실제 이런 최적화를 통해 딥시크는 적용 모델의 속도 6~11.6배 빨라졌다고 밝혔다. 또 각종 벤치마크에서는 표준 어텐션 메커니즘을 적용한 모델보다 NSA 방식이 모두 높은 정확도를 보였다고 소개했다.
특히 컨텍스트가 6만4000 토큰 정도로 큰 경우, '건초더미 속의 바늘 찾기'와 같은 작업에서 높은 검색 정확도를 보였다고 강조했다.
한편, 이번 논문은 기술 비전문 매체에서도 주요한 내용으로 다뤄 눈길을 끌었다. 알리바바가 소유한 사우스차이나모닝포스트(SCMP)는 이번 연구가 딥시크의 개발 우선순위를 보여준다고 평했다.
딥시크는 V3와 R1으로 모델 성능은 유지하면서 비용을 획기적으로 낮추는 데 성공했는데, 이번 연구도 같은 맥락이라는 것이다.
그만큼 딥시크가 많은 주목을 받고 있다. 웨이신이 이날 발표한 플랫폼 키워드 보고서에 따르면, 딥시크는 시진핑 주석 면담에 참석한 이후 관련 기사와 영상을 클릭한 사용자가 2억200만명에 달한 것으로 알려졌다. 이는 행사 참석 이전보다 69%나 증가한 수치다.
딥시크가 최근 논문을 발표한 것은 이번이 처음은 아니다. 11일에는 추론 성능을 향상하기 위해 코드에 자연어 설명을 추가하는 새로운 방식을 공개했다.
이는 '챗GPT' 성공 이후 오픈AI의 발표 논문이 대부분 관심을 끄는 것과 흡사한 모습이다. 중국 AI 기업 중에서는 거의 최초의 사례다.
임대준 기자 ydj@aitimes.com
- [2월18일] 딥시크 충격에서 벗어나려는 기술계..."오픈AI 점유율 0.01%밖에 못 바꿀 것"
- 시진핑, 중국 기업 소집해 지원 약속
- "딥시크-R1, 벤치마크 문제 풀이 중 짜증 내며 포기해"
- 딥시크, LLM '추론 성능 향상법' 오픈 소스 공개..."코드 대신 자연어로 추론 훈련"
- 딥시크 "코드·데이터까지 완전 공개...오픈 소스 강화"
- 문샷, 딥시크 이어 긴 컨텍스트 효율 향상 기술 공개..."토큰 처리에 MoE 방식 차용"
- 딥시크, 5월 예정인 'R2' 출시 앞당긴다
- 딥시크, 저비용 고효율 'MoE 엔지니어링' 핵심 기술 오픈 소스 공개
- 추론 모델 '생각 길이' 최적화하는 강화학습법 등장
- 딥시크 창립자, 세계 최고 AI 연구 컨퍼런스에서 최우수 논문상 수상
- 애플, 장시간 채팅 메모리 6배 줄이는 기술 공개..."인간처럼 대화 기억"
- 딥시크, API 비용 절반으로 줄인 실험 모델 'V3.2' 출시
