구글 클라우드, TPU v4 기반 머신러닝 클러스터 발표
구글 개발 클라우드 가속기, 데이터 계산·가공 속도 ↑
노트북 1000만 대의 컴퓨팅 성능 합친 엑사플롭 제공
LG·카카오 초거대 AI 개발에 사용, 기대 이상 성능 밝혀

구글 클라우드가 TPU 4세대 버전인 TPU v4 포드(POD) 기반 머신러닝 클러스터를 발표했다. (사진=셔터스톡, 편집=김동원 기자)
구글 클라우드가 TPU 4세대 버전인 TPU v4 포드(POD) 기반 머신러닝 클러스터를 발표했다. (사진=셔터스톡, 편집=김동원 기자)

구글 클라우드가 텐서프로세서유닛(TPU)의 4세대 버전인 TPU v4 포드(POD) 기반 머신러닝 클러스터를 발표했다. TPU v4는 LG와 카카오가 각각 출시한 초거대 인공지능(AI) '엑사원(EXAONE)'과 '코지피티(KoGPT)' 개발에 사용된 가속기다. 이 칩은 구글이 AI 반도체 설계에 AI 기술을 적용했다고 밝힌 칩이기도 하다.

TPU는 구글이 개발한 클라우드 AI 가속기다. 클라우드에서 데이터를 빠르게 계산하고 가공할 수 있다. 그래픽처리장치(GPU)보다 연산 속도가 빠르다. 복잡한 연산을 갖춘 상위 시스템을 슈퍼컴퓨터 한 대에서 활용 가능하다.

구글은 2016년부터 데이터센터에 적용할 수 있는 TPU를 개발해왔다. 가장 최신 버전이 지난해 5월 구글 I/O 행사에서 발표한 TPU v4다. 구글 클라우드는 행사에서 "TPU v4는 이전 세대보다 두 배 이상 빠른 속도로 구동된다"며 "하나의 포드는 하나 이상의 엑사플롭을 제공할 수 있고 이는 노트북 1000만 대의 컴퓨팅 성능을 합친 것과 같다"고 발표했다.

TPU v4는 설계 작업에서 AI 기술을 적용한 칩이기도 하다. AI 개발에 필요한 칩을 AI가 직접 설계한 것. 구글은 지난해 6월 국제 학술지 네이처에 "AI를 이용해 사람이 수개월에 걸쳐 진행하던 TPU v4 AI 반도체 설계 작업을 6시간 만에 끝냈다"고 밝혔다. 

[관련기사] 구글, 반도체 설계에 AI 적용..."수개월 걸리던 작업을 6시간 만에"

구글 클라우드는 지난해 TPU v4 출시를 알린 후 얼리 엑세스 버전을 주요 기업에 공급해왔다. LG AI연구원, 카카오를 포함해 메타AI(Meta AI), 세일즈포스리서치(Salesforce Research), 코히어(Cohere) 등 유수 AI 연구팀에 얼리 엑세스 버전을 제공했다. 이후 약 1년 뒤 구글 클라우드는 TPU v4 기반 머신러닝 클러스터를 발표했다.

이 머신러닝 클러스터는 연구원과 개발자가 AI 분야의 최전선에서 혁신적인 돌파구를 마련할 수 있도록 지원한다. 고객사는 이 클러스터를 활용해 대규모 자연어처리(NLP)와 추천 시스템, 컴퓨터 비전 모델용 워크로드를 클라우드 TPU v4에서 훈련할 수 있다. 초거대 AI와 같은 대규모 모델의 고속 훈련도 가능하다.

구글 클라우드는 "각각의 클라우드 TPU v4 포드는 4096개의 칩이 상호연결된 초고속 네트워크로 구성돼 있다"며 "호스트 당 6Tbps(초당 테라비트) 대역폭을 지원한다"고 밝혔다.

TPU v4 기반 머신러닝 클러스터는 모델 훈련에 필요한 연산 능력을 비용 대비 높은 성능으로 제공한다. 시스템 성능 비교 기준으로 삼는 피크 플롭스(peak FLOPS)로 비교하면 클라우드 TPU v4 칩은 전 모델인 TPU v3 대비 2.2배 향상된 피크 플롭스를 지원한다. 달러 당 피크 플롭스도 1.4배 높아졌다.

구글 클라우드의 전략적 연구 파트너인 LG AI연구원은 TPU v4의 상용화 전 테스트에 참여해 초거대 AI 엑사원을 학습시켰다. 3000억 개 파라미터(매개변수)를 가진 멀티모달 AI다. 

배경훈 LG AI연구원 원장은 "TPU v4의 성능은 동급 최고의 컴퓨팅 아키텍처를 능가할 뿐만 아니라 고객 지원 능력 역시 기대 이상이었다"고 밝혔다. (사진은 'SNU-LG AI 리서치센터'에서 인사말을 하는 모습)
배경훈 LG AI연구원 원장은 "TPU v4의 성능은 동급 최고의 컴퓨팅 아키텍처를 능가할 뿐만 아니라 고객 지원 능력 역시 기대 이상이었다"고 밝혔다. (사진은 'SNU-LG AI 리서치센터'에서 인사말을 하는 모습)

배경훈 LG AI연구원 원장은 "멀티모달 기능을 갖춘 LG 엑사원은 TPU v4를 활용해서 6000억 개 이상의 말뭉치와 2억 5000만 개 이상의 이미지로 구성된 방대한 데이터를 학습하고 있으며 커뮤니케이션, 생산성, 창의성 등의 측면에서 인간 전문가를 뛰어넘는 것을 목표로 하고 있다"며 "TPU v4의 성능은 동급 최고의 컴퓨팅 아키텍처를 능가할 뿐만 아니라 고객 지원 능력 역시 기대 이상이었다"고 밝혔다.

이어 "구글과 협력하게 된 것을 매우 기쁘게 생각한다"며 "더 나은 삶을 위해 AI를 발전시킨다는 LG AI연구원의 궁극적인 비전을 달성할 수 있도록 구글과 전략적 파트너십을 굳건히 이어나갈 것"이라고 말했다.

카카오브레인 역시 클라우드 TPU v4의 대규모 데이터 학습 테스트에 참여해 초거대 AI 언어 모델 코지피티의 연구개발 역량을 강화했다. 카카오브레인은 기존 GPU 서버 환경에 클라우드 TPU를 추가로 도입해 대규모 모델 학습 시 발생하는 네트워크 병목 현상을 해결하고 60억 개의 파라미터와 2000억 개 토큰(token)에 달하는 한국어 데이터를 빠르게 처리했다. 이를 통해 언어 모델 연구 및 개발에 소요되는 시간을 단축하고 효율적인 모델 학습 프로세스를 구축했다.

장화진 구글 클라우드 코리아 사장은 "구글 클라우드는 구글 검색(Search), 유튜브(YouTube)와 같은 구글 제품에 실제로 사용되는 AI 성능을 구글 클라우드 고객에게 클라우드 TPU를 통해 제공하고 있다"며 "클라우드 TPU v4의 강력한 성능과 기술력을 바탕으로 국내 기업 및 연구 기관이 차세대 AI 및 머신러닝 혁신을 가속화할 수 있도록 적극 지원하겠다"고 말했다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사]구글 클라우드, 기술 혁신 제품 대거 공개..."AI 개발 전방위 지원"

[관련기사]AI 칩 만드는 AI…구글, 딥 러닝으로 더 빠르고 더 작은 AI 칩 설계

키워드 관련기사
  • 구글, 5400억 매개변수 초대형 언어 모델 ‘PaLM’ 공개
  • 카카오브레인, 초거대 멀티모달 AI 'minDALL-E' 공개...국내 두 번째
  • 카카오브레인, '구글 TPU'로 국내 최대 딥러닝 슈퍼컴퓨팅 인프라 구축