MIT 컴퓨터과학인공지능연구소(CSAIL)와 MIT-IBM 왓슨 AI랩 연구진 공동 개발

(사진=셔터스톡).
(사진=셔터스톡).

MIT 컴퓨터과학인공지능연구소(CSAIL)와 MIT-IBM 왓슨 AI랩 연구진이 구글의 트랜스포머 아키텍처를 통합한 AI 모델 훈련 기법 ‘하드웨어인식트랜스포머(HAT)’를 개발했다.

벤처비트는 지난달 29일(현지시간) CSAIL과 왓슨 AI랩 연구진이 HAT를 제안하며 이 기술이 래즈베리파이4 같은 저가형 단일보드 컴퓨터에서 3배 속도를 높이는 동시에 모델 크기를 기준치 대비 3.7배 줄일 수 있다고 주장했다고 전했다.

트랜스포머는 구글의 새로운 번역기술이다. 번역 학습에 필요한 계산량이 다른 신경망 번역기술보다 적어 머신러닝 하드웨어에 적합하다. 그러나 트랜스포머는 계산 비용 탓에 엣지 배치에 어려움이 있다. 일례로 래즈베리파이4에서 30단어로 이뤄진 문장을 번역하려면 13기가플롭스(초당 10억회 연산능력)가 필요하고 20초가 걸린다.

연구진은 AI 모델 설계 자동화 방법인 신경구조 검색(NAS)을 활용해 해결점을 찾았다. HAT는 먼저 슈퍼트랜스포머를 훈련시켜 엣지에 최적화된 트랜스포머를 검색한다. 다음으로 보조 트랜스포머를 동시에 훈련시켜 처음부터 훈련된 다른 아키텍처에 상대적 성능 근사치를 제공한다. 마지막 단계에서 HAT는 최고의 서브 트랜스포머를 찾기 위해 진화적 검색을 수행한다.

HAT의 효율성을 시험하기 위해 연구진은 최대 4300만개 훈련문장으로 구성된 4가지 기계번역 과제에 대한 실험을 실시했다. 각 모델별로 대기시간을 300회 측정해 가장 빠르고 느린 10%를 제거한 뒤 나머지 80%의 평균을 래즈베리파이4와 엔비디아 타이탄XP 그래픽 카드에서 실행했다.

연구진에 의하면 HAT를 통해 확인된 모델은 기존의 훈련된 트랜스포머보다 모든 하드웨어에서 대기 시간이 짧다. 구글이 최근 개발한 ‘진화된 변압기’와 비교하면 1개 모델은 3.6배, 연산비용은 무려 1만2041배, 성능손실은 없는 것으로 나타났다.

연구진은 “HAT가 실제 애플리케이션에서 효율적인 트랜스포머 배치를 위한 길을 열 수 있기를 바란다”고 밝혔다. 전문가는 공유 플랫폼 깃허브에서 HAT를 오픈소스로 사용할 수 있다는 점에 주목하고 있다.