바이두가 자체 제품에 딥 러닝을 적용하기 위해 개발
477만 명 이상의 개발자와 180,000개 기업에서 사용
산업 애플리케이션 위해 알고리즘과 사전훈련모델 제공

개발자는 야채 재배를 포함한 많은 산업 응용 분야에 패들패들을 사용한다.(사진=바이두)
개발자는 야채 재배를 포함한 많은 산업 응용 분야에 패들패들을 사용한다.(사진=바이두)

텐서플로우(TensorFlow), 파이토치(PyTorch) 및 케라스(Keras), 이 세 가지 딥 러닝 프레임워크(deep learning framework)는 수년간 인공지능(AI)을 지배해 왔다. 그러나 세계에서 가장 많은 사용자를 가진 프레임워크는 서구에는 많이 알려지지 않은 중국의 패들패들(PaddlePaddle)이다.

IEEE 스펙트럼(IEEE Spectrum)에 따르면 패들패들은 사용하기 쉽고 효율적이며 유연하고 확장 가능한 딥 러닝 플랫폼으로, 원래 중국 AI 대기업인 바이두(Baidu)가 자체 제품에 딥 러닝을 적용하기 위해 개발했다. 오늘날 전 세계적으로 가장 많은 477만 명 이상의 개발자와 180,000개 기업에서 사용하고 있다. 

바이두는 최근 자연어 처리, 시각 및 컴퓨터 생물학을 포괄하는 10개의 대규모 딥 러닝 모델과 함께 패들패들에 대한 새로운 업데이트를 발표했다. 모델 중에는 ERNIE 3.0 Zeus라고 하는 1,000억 매개변수 자연어 처리(NLP) 모델, ERNIE-GeoL이라고 하는 지리 및 언어 사전 훈련된 모델, HELIX-GEM이라는 복합 표현 학습을 위한 사전 훈련된 모델이 있다.

또한 비지도 학습(unsupervised learning) 작업에 대한 산업 데이터와 전문 지식을 사용해 ERNIE 3.0 Titan 모델을 미세 조정해 3개의 새로운 산업 중심 대형 모델(전력 산업, 은행 및 항공 우주용)을 만들었다. 

소프트웨어 프레임워크는 프로젝트 또는 시스템의 개발을 가능하게 하는 관련 지원 프로그램, 컴파일러, 코드 라이브러리, 도구 세트 및 API(응용 프로그래밍 인터페이스)의 패키지다. 딥 러닝 프레임워크는 고급 프로그래밍 인터페이스를 통해 심층 신경망을 설계, 훈련 및 검증하는 데 필요한 모든 것을 함께 제공한다. 이러한 도구가 없으면 딥 러닝 알고리즘을 구현하는 데 많은 시간이 소요된다. 그렇지 않으면 재사용 가능한 코드를 처음부터 작성해야 하기 때문이다.

바이두는 ImageNet 대회에서 제프리 힌튼(Geoffrey Hinton) 교수의 딥 러닝 혁신이 있은 지 몇 개월 후인 2012년에 이러한 도구를 개발하기 시작했다. 2013년 버클리 캘리포니아 대학(University of California, Berkeley)의 박사 과정 학생이 컴퓨터 비전 연구에 사용되는 컨볼루션 신경망(Convolutional Neural Network)을 지원하는 카페(Caffe)라는 프레임워크를 만들었다. 바이두는 카페를 기반으로 패들패들을 개발했으며, 컨볼루션 신경망 외에 순환 신경망(Recurrent Neural Network)을 지원하여 NLP 분야에서 이점을 제공한다.

패들패들이라는 이름은 여러 GPU에서 모델을 훈련하는 프레임워크의 기능인 병렬 분산 딥 러닝(PArallel Distributed Deep Learning)에서 파생됐다.

2015년에 구글(Google)의 텐서플로우가 공개되고 다음 해 바이두의 패들패들이 공개됐다. 당시 구글의 CEO였던 에릭 슈미트(Eric Schmidt)가 2017년 중국에 텐서플로우를 소개했을 때 패들패들이 그보다 앞서 있었다.

텐서플로우와 2017년에 공개된는 메타(Meta)의 파이토치는 중국에서 인기를 유지하지만 패들패들은 기업 사용자를 대상으로 한다. 바이두의 AI 기술 생태계 제너럴 매니저인 마 얀준(Ma Yanjun)은 "개인과 기업의 진입 장벽을 낮추기 위해 많은 노력을 기울였다"라고 말했다.

파이토치 및 텐서플로우는 프로덕션 환경의 비전문가를 위해 설계된 툴킷인 패들패들에 비해 사용자에게 더 많은 딥 러닝 전문 지식을 요구한다.

마 매니저는 "중국에서는 많은 개발자들이 AI를 업무에 활용하려고 하지만 AI 배경이 많지 않다"며, "따라서 다양한 산업 분야에서 AI 사용을 늘리기 위해 패들패들에 사용하기 쉽고 더 많은 커뮤니티에서 사용할 수 있는 낮은 임계값 툴킷을 많이 제공했다"고 설명했다.

AI 엔지니어는 일반적으로 산업 분야에 대해 잘 알지 못하고 산업 분야 전문가는 AI에 대해 잘 모른다. 그러나 패들패들의 이해하기 쉬운 코드는 사용자에게 도움이 되는 풍부한 학습 자료와 도구가 함께 제공된다. 또한 쉽게 확장할 수 있으며 다양한 요구 사항을 해결할 수 있는 포괄적인 API 세트가 있다.

이 개발자들은 나무 심기 프로세스를 자동화하기 위해 사막 로봇용 패들패들을 사용했다.(사진=바이두)
이 개발자들은 나무 심기 프로세스를 자동화하기 위해 사막 로봇용 패들패들을 사용했다.(사진=바이두)

대규모 데이터 훈련을 지원하며 수백 대의 기계를 병렬로 훈련할 수 있다. 신경 기계 번역 시스템, 추천 시스템, 이미지 분류, 감정 분석 및 시맨틱 레이블링(semantic labeling)을 제공한다.

마 매니저는 툴킷과 라이브러리가 패들패들의 강점이라고 말했다. 예를 들어, PaddleSeg는 이미지 분할에 사용할 수 있고, PaddleDetection은 객체 감지에 사용할 수 있다. 그는 "데이터 처리에서 훈련, 모델 압축, 다른 하드웨어에 대한 적응에 이르기까지 AI 개발의 전체 파이프라인을 다룬 다음 Windows 또는 Linux와 같은 운영체제나 인텔(Intel) 칩이나 엔비디아(Nvidia) 칩과 같은 다른 시스템에 배포하는 방법을 다룬다”고 설명했다. 

이 플랫폼은 또한 양자 컴퓨팅 모델을 위한 Paddle Quantum 및 그래프 학습 모델을 위한 Paddle Graph Learning과 같은 최첨단 연구 목적을 위한 툴킷을 호스팅한다.

마 매니저는 "이것이 바로 패들패들이 현재 중국에서 꽤 인기가 있는 이유다"며, "개발자들은 도구 자체가 아니라 그러한 도구 키트를 사용하고 있다"고 강조했다.

패들패들은 오픈 소스였고 또한 광범위한 영어 문서 덕분에 바이두 이외의 다양한 산업 분야과 중국 이외의 국가에서 빠르게 발전했다. 현재 패들패들은 산업 애플리케이션의 신속한 개발을 촉진하기 위해 500개 이상의 알고리즘과 사전 훈련된 모델을 제공한다. 바이두는 실제 응용 프로그램에 배포할 수 있도록 모델 크기를 줄이기 위해 노력했다. 일부 모델은 카메라나 휴대폰에도 배포할 수 있을 정도로 작고 빠르다.

패들패들에는 실시간 추천 시스템 및 검색에 사용할 수 있는 희소 모델(sparse model)을 훈련하는 매개변수 서버 기술이 있다. 그러나 텍스트 생성이나 이미지 생성과 같이 실시간 결과가 필요하지 않은 시나리오에 사용되는 훨씬 더 큰 시스템으로 모델을 병합했다.

바이두는 소위 기초 모델이 특정 시나리오에 적용될 수 있기 때문에 AI 채택에 대한 장벽을 줄이는 또 다른 방법으로 크고 조밀한 모델을 보고 있다. 기초 모델이 없으면 처음부터 모든 것을 개발해야 한다.

마 매니저는 연구 영역이 언어 및 시각과 같은 다양한 양식의 교차 모델 학습(cross-model learning)으로 수렴되고 있으며, 딥 러닝 프로세스에서 지식 그래프(knowledge graph)를 사용하고 있다고 말했다. 그는 "이전 딥 러닝 시스템은 지식 입력 없이 원시 텍스트 또는 원시 이미지를 처리했으며 시스템은 자체 지도 학습(self-supervised learning)을 사용해 데이터 이외의 규칙을 수집했었지만 이제는 지식 그래프를 입력으로 보고 있다"고 말했다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]中 바이두, 운전대 없고 값싼 자율자동차 ‘아폴로 RT6’ 공개

[관련기사]중국 바이두, 자율주행 컨셉카 ‘로보-01’ 공개

키워드 관련기사
  • 알리바바 클라우드, 국내 운영 시작 "전 세계 어디서든 비즈니스 가능"
  • 바이두, AI 수화 플랫폼 출시…”어디서나 수화 가능해”
  • 바이두, 중국 최초의 메타버스 시랑(XiRang) 공개