엔비디아(CEO 젠슨 황)가 유전체학과 양자 컴퓨팅, 경로 최적화 알고리즘 등의 문제 해결에 사용되는 ‘동적 프로그래밍’의 속도를 새로운 DPX 명령어로 최대 40배까지 향상시키는 엔비디아 호퍼(NVIDIA Hopper) GPU 아키텍처와 GDDR6X 메모리 24GB와 셰이더 연산 초당 최대 40테라플롭스, 레이트레이싱 최대 78테라플롭스를 소화하는 그패픽 카드 지포스(GeForce) RTX 3090 Ti GPU를 공개했다.
호퍼 GPU 아키텍처, 새로운 DPX 명령어로 동적 프로그래밍 속도 40배 향상
엔비디아는 GTC 2022에서 '동적 프로그래밍(dynamic programming)'의 속도를 새로운 DPX 명령어로 최대 40배까지 향상하는 엔비디아 호퍼(NVIDIA Hopper) GPU 아키텍처를 공개했다. 엔비디아 H100 GPU 명령어 집합인 DPX는 개발자의 코드 작성을 도와 여러 산업 내 동적 프로그래밍 알고리즘의 속도를 높이고 질병 진단, 양자 시뮬레이션, 그래픽 분석, 경로 최적화 워크플로를 개선한다.
1950년대에 개발된 동적 프로그래밍은 2개의 핵심 기법인 재귀(recursion)와 메모이제이션(memoization)을 활용해 복잡한 문제들을 해결한다.
재귀는 기존 문제를 보다 단순한 하위 문제로 분해해 시간과 계산 작업을 단축시킨다. 기존 문제 해결에 반복적으로 등장하는 하위 문제들에 대한 답들은 메모이제이션을 통해 저장된다. 따라서 나중에 기존 문제를 해결할 때 하위 문제를 다시 계산하지 않아도 되므로 효율성이 향상된다.
엔비디아 H100 GPU의 DPX 명령어는 엔비디아 암페어(Ampere) 아키텍처 기반 GPU와 비교해 동적 프로그래밍 알고리즘의 속도를 최대 7배 향상시킨다. 엔비디아 H100 GPU 4개를 탑재한 노드에서는 더욱 탁월한 속도 개선을 기대할 수 있다.
동적 프로그래밍은 각종 최적화와 데이터 처리, 오믹스 알고리즘에 두루 사용된다. 지금까지 대부분의 개발자들은 이런 유형의 알고리즘을 CPU나 FPGA에서 실행해왔으나 이제 엔비디아 호퍼 GPU에서 DPX 명령어를 활용해 극적인 가속화를 달성할 수 있다.
오믹스(Omics)는 유전체학(DNA 중심)과 단백질체학(단백질 중심), 전사체학(RNA 중심) 등 생물학의 여러 분야를 다룬다. 질병 연구와 신약 개발에 중요한 영향을 미치는 이 분야들이 주로 의존하는 알고리즘적 분석을 DPX 명령어로 가속할 수 있다.
일례로 스미스-워터맨(Smith-Waterman)과 니들맨-분쉬(Needleman-Wunsch) 동적 프로그래밍 알고리즘은 DNA 시퀀스 정렬과 단백질 분류, 단백질 접기(protein folding)에 사용된다. 두 알고리즘 모두 서로 다르게 정렬된 검체들의 유전자 시퀀스 적합도를 점수화 방법을 통해 측정한다.
스미스-워터맨은 결과의 정확도가 매우 높지만 다른 정렬 기법에 비해 더 많은 컴퓨팅 리소스와 시간을 요한다. 그러나 엔비디아 H100 GPU 4개를 탑재한 노드에서 DPX 명령을 사용하는 경우, 관련 프로세스를 35배까지 가속해 베이스 콜링(base calling)과 정렬 작업, DNA 시퀀싱이 동일한 속도로 진행되는 실시간 프로세싱을 달성할 수 있다.
이러한 가속화는 전 세계 병원에 유전체 분석을 대중화해 환자 맞춤형 치료의 실현에 기여할 수 있다.
물류 센터 내부를 오가는 자율 로봇에게 동적 이동을 위한 최적의 경로 찾기는 무척 중요한 작업에 해당한다. 컴퓨터 네트워크에서 다중의 수신기에 데이터를 전송하는 송출기의 경우도 마찬가지다.
최적화 문제를 해결하기 위해 플로이드-워셜(Floyd-Warshall) 기법이 사용된다. 플로이드-워셜은 지도나 그래프에서 각 목적지 사이의 최단 거리를 파악할 때 사용되는 동적 프로그래밍 알고리즘이다. 여기에 엔비디아 H100 GPU 4개가 탑재된 서버를 활용하면 전통적인 듀얼 소켓의 CPU 전용 서버 대비 속도를 40배 향상시킬 수 있다.
이처럼 가속한 경로 최적화를 엔비디아 cuOpt AI 물류 소프트웨어와 접목해 공장이나 자율주행 자동차, 추상 그래프의 매핑과 경로 알고리즘의 실시간 애플리케이션에 활용할 수 있다.
엔비디아 H100 GPU와 DPX 명령어로 가속 가능한 동적 프로그래밍 알고리즘은 매우 많다. 양자 컴퓨팅 또한 큰 효과를 기대할 수 있는 분야이다. 양자 컴퓨팅에서는 양자 시뮬레이션용 텐서 최적화 알고리즘에 동적 프로그래밍이 사용된다. DPX 명령어는 적합한 텐서 수축 순서의 식별 프로세스를 가속해준다.
또다른 잠재적 응용 분야로 데이터 사이언스를 들 수 있다. SQL 프로그래밍 언어를 사용하는 데이터 과학자들의 경우, 하나의 테이블 세트에서 복수의 “조인(join)” 작업을 수행해야 할 때가 많다. 동적 프로그래밍은 이 조인 작업의 순서 최적화를 도와 실행 시간을 크게 줄이고 SQL 쿼리를 가속한다.
최신 지포스 RTX 3090 Ti 공개…최고 수준 성능 제공
엔비디아의 2세대 RTX 아키텍처인 암페어(Ampere)를 적용한 RTX 3090 Ti는 기록적인 10,752개의 쿠다(CUDA) 코어를 탑재했으며 78개의 레이 트레이싱 TFLOPs(테라플롭스), 40개의 섀이더(Shader) TFLOPs 및 320개의 텐서(Tensor) TFLOPs 성능을 제공한다. 또한 가장 빠른 속도를 자랑하는 21Gbps GDDR6X 메모리 24GB를 탑재했다.
지포스 RTX 3090 Ti는 데이터 사이언스와 AI를 위한 연구 시스템을 구축하거나 대규모 데이터 세트를 처리하고 크리에이티브 애플리케이션에서 대규모 프로젝트를 수행하는 사용자를 위한 최고의 그래픽 카드이다. 상세 모델, 초고해상도 텍스처, 대용량 데이터 세트를 활용하는 개발자와 CG 애니메이션 제작자에게도 적합하다. RTX 3090 Ti는 현존하는 가장 빠른 GPU를 필요로 하는 모든 사용자를 위한 제품이다.
지포스 RTX 3090 Ti는 수많은 아티스트들이 기대해 온 제품으로, 전문적인 크리에이터들을 위해 제작됐다. 대용량 모델 편집, 고품질 비디오 작업, 다양한 애플리케이션의 편집 등을 동시에 수행할 수 있다.
블렌더(Blender), 마야(Maya), 시네마 4D(Cinema4D) 등의 애플리케이션에서 렌더링하려면 더 강력한 GPU와 GPU 메모리가 필요하다. 이러한 렌더링 애플리케이션에서 RTX 3090 Ti는 RTX 2080 Ti 및 타이탄(TITAN) RTX보다 42~102% 더 높은 성능을 제공한다. 또한 RTX 3090 Ti는 24GB의 대용량 메모리를 통해 기존 RTX 3080 Ti의 메모리가 처리했던 데이터 세트의 2배를 처리할 수 있다.
영상 편집자 또한 큰 이점을 누릴 수 있다. 예를 들어 레드코드(REDCODE)를 갖춘 다빈치 리졸브(DaVinci Resolve)에서 8K RAW 프로젝트로 작업할 경우, Raw(R3D) 파일은 기존 지포스 RTX 3080 Ti에서 사용 가능한 10GB 메모리의 대부분을 차지한다. 여기에 일시적 노이즈 저감(Temporal Noise reduction)이나 스피드워프 리타이밍(SpeedWarp retiming)등의 메모리 집약적인 효과를 추가하면 RTX 3080 Ti에서 사용 가능한 메모리를 뛰어넘어, 애플리케이션에서 메모리 부족 오류가 발생할 수 있다. 하지만 RTX 3090 Ti에서 동일하게 메모리 부하가 높은 작업을 수행할 경우, 프로젝트의 복잡성은 유지한 채 정상적으로 편집을 계속할 수 있다.
모든 옵션이 적용된 최고 해상도 환경에서 게임플레이를 즐기는 게이머들도 많다. 이들은 가격에 상관없이 몰입감 넘치는 경험을 원하고, 이에 자부심을 느끼는 차세대 8K 게이밍의 얼리 어답터들이다. 지포스 RTX 3090 Ti는 8K 게이밍을 위한 DLSS 울트라 퍼포먼스(Ultra Performance) 모드와 8K TV 연결을 지원하는 HDMI 2.1 단일 케이블, 8K HDR 게임 캡처를 위한 지포스 익스피리언스(Experience), 8K HDR 영상의 효율적인 재생을 지원하는 AV1 디코드를 제공하며, 게이머는 8K HDR 화질로 게임을 플레이하고 캡처하며 시청할 수 있다.
오늘날 가장 그래픽 집약적인 게임 타이틀은 RTX 3090 Ti의 성능을 전부 사용할 수 없을 것이다. 하지만 이는 문제가 되지 않는다. 기존 출시된 지포스 RTX 3080 Ti를 사용하면 RTX 3090 Ti의 추가적인 장점 없이도 최고 수준의 게임 성능을 즐길 수 있기 때문이다. RTX 3090 Ti의 게이밍 성능은 RTX 2080 Ti보다 평균 64%, 타이탄 RTX보다 52%, RTX 3090보다 9% 더 빠르다.
AI타임스 박찬 위원 cpark@aitimes.com
- 엔비디아, '인셉션 프로그램' 스타트업 컴퓨팅 가속화 지원 추가
- [CES 2022] 불붙는 '플래그십 칩' 경쟁…인텔·엔비디아·AMD, CES서 고성능 칩 공개
- 엔비디아, 메타 AI 슈퍼컴퓨터에 A100 공급...5엑사급 성능 발휘
- "시민들의 삶 바꾸는 AI 사업 발굴해요"…광주시, AI-뉴딜 우수사업 선정
- [인터뷰] 김수찬 긱플러스코리아 총괄이사 "물류로봇 솔루션으로 한국 시장서 1등 하겠다"
- AI로 치아 치료 돕는 기술, 미 FDA 최초 승인
- 스타트업 삼바노바, 차세대 통합 AI 플랫폼 ‘데이터스케일’ 출시
- 엔비디아, AI 고성능 컴퓨팅을 위한 ‘그레이스 호퍼’ 슈퍼칩 제공
