(사진=셔터스톡)
(사진=셔터스톡)

엔비디아 'H100' GPU의 성능을 최대 75%까지 효율적으로 활용하는 기술이 나왔다. 현재 병목 현상으로 성능의 일부분 밖에 활용하지 못하는 GPU의 활용도를 높여, 대형언어모델(LLM) 훈련과 실행 필요한 시간과 비용을 대폭 줄일 수 있게 됐다는 설명이다. 

벤처비트는 15일(현지시간) 콜팩스 리서치, 메타, 엔비디아, 조지아공과대학, 프린스턴대학교, 투게더 AI 연구진 등이 엔비디아 H100 GPU에서 어텐션(attention) 계산 속도를 높이는 새로운 기술인 ‘플래시어텐션-3(FlashAttention-3)’에 관한 논문을 발표했다고 보도했다.

어텐션은 LLM에 사용되는 트랜스포머 아키텍처의 핵심 계층이지만, 계산 비용이 많이 든다.

특히 어텐션 계산 비용은 컨텍스트의 길이에 따라 제곱수로 증가한다. LLM이 점점 더 긴 컨텍스트를 처리하도록 확장됨에 따라 어텐션 메커니즘은 주요 병목 지점이 된다. 이 때문에 GPU의 실제 성능 중 일부 밖에 활용하지 못하는 결과를 초래한다. 

플래시어텐션-3는 엔비디아 H100 GPU의 리소스 사용을 최적화, LLM 학습 및 추론의 성능과 효율성을 극대화하는 방식이다. 

핵심은 GPU의 메모리 세그먼트 간 데이터 이동 작업과 연산 작업의 중첩을 최대화하도록 스케줄링, 병렬 처리하는 것이다. 이를 통해 데이터 전송을 기다리는 GPU 유휴 시간을 줄인다.

또 GPU에 최적화한 행렬 곱셈과 최적화 되지 않은 소프트맥스 연산을 교차 수행, 어텐션이 계산할 때 병목 현상이 발생할 가능성을 줄인다.

이는 어텐션 가중치를 정규화하는 데 사용되는 소프트맥스 함수는 행렬 곱셈보다 계산 비용이 더 많이 들기 때문이다. 결과적으로 행렬 곱셈이 어텐션에서 대부분의 계산을 차지하더라도, 전체 계산은 소수의 특수 함수에 의해 지연될 수 있다는 지적이다.

플래시어텐션-3는 양자화된 모델에서 어텐션 계산을 더 빠르고 정확하게 수행하기 위해 특별한 연산 배열을 사용한다. 양자화(quantization)는 모델의 가중치를 적은 비트 숫자로 저장하여 모델 크기를 줄이는 기술이다. 

연구진에 따르면, 플래시어텐션-3는 이런 기술을 활용, H100 GPU의 성능의 최대 75%까지 활용한다. 이는 이전 버전의 플래시어텐션 보다 1.5~2배 빠른 속도다.

LLM을 훈련하는 데 걸리는 시간도 크게 줄일 수 있다. 특히 LLM이 긴 컨텍스트를 효율적으로 처리할 수 있도록 해, LLM의 컨텍스트 창을 확장하는 데에도 도움이 될 수 있다. 또 GPU 성능을 더 많이 활용함으로써 LLM을 실행하는 데 필요한 가속기 수를 줄이고 모델에서 추론을 실행하는 데 드는 비용을 대폭 줄일 수 있다.

현재 플래시어텐션-3는 깃허브에서 오픈 소스로 제공하고 있으며, 파이토치 및 허깅페이스 트랜스포머와 같은 딥러닝 라이브러리에 통합될 예정이다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지