바이두 CTO, 지식 그래프, NLP 생성기술 등 바이두 NLP 설계도 공개

(사진=바이두 리서치)
(사진=바이두 리서치)

바이두가 3년 안에 자연어처리 데이터 세트 100개를 만들기로 했다. 세계에서 가장 큰 중국어 처리 데이터베이스를 만든다는 목표다. 

우화(Wu Hua) 바이두 기술 위원회 위원장은 지난 28일(현지시간) 향후 3년 이내에 100개 이상의 중국어 처리 데이터 세트를 구축할 계획이라고 발표했다. 자연어 처리 (NLP) 설계도와 다섯 가지 새로운 NLP 제품을 공개해 중국어 정보 처리 영향력을 높이겠다는 의도다.

바이두는 2010년 자연어 처리 부서는 설립, 중국 컴퓨터 학회(CCF), 중국 정보처리협회와 공동으로 세계 최대 중국어 처리 데이터베이스 개발에 협력하는 등 지능형 검색 및 스마트 홈을 개발에 주력해 왔다. 

우화 바이두 기술 위원회 위원장은 "앞으로 더 많은 데이터 세트 개발자들이 ‘치엔 얀’ 플랫폼 개발에 참여해 중국 정보처리 기술 발전을 도모하고 전 세계적으로 중국어 정보 처리 영향력을 구축할 수 있기를 바란다"고 말했다.

중국어로 ‘수천 단어’라는 뜻의 '치엔 얀'은 11개 대학과 기업 데이터 소스 개발자들이 공동으로 개발한 오픈 도메인 대화 시스템, 독해, 20개 이상의 중국어 오픈소스 데이터 세트 등 7개의 주요 과제를 다뤘다.

우 위원장은 바이두 AI 스튜디오를 통해 개발자들에게 컴퓨팅 능력을 제공하기 위한 연산능력 공유 계획도 발표했다.

◆ 바이두 언어 및 지식 기술

왕 하이펑(Wang Haifeng) 최고기술책임자(CTO)는 지식 그래프, 자연어 이해 및 생성 기술, 다운 스트림 애플리케이션을 포함한 바이두의 자연어 설계도를 공개했다.

지식 그래프는 컴퓨터가 인지능력을 발달하는 데 필요한 기본 요소다. 바이두는 50억개 이상의 항목과 5500억 가지 사실로 대규모 지식 그래프를 만들었다. 

바이두 NLP 기술은 지식 그래프 외에도 언어 이해 능력을 향상했다. 우리는 2019년에 연속적인 멀티태스킹 학습을 통해 점진적으로 학습하고 체득하는 지속적인 사전 교육 프레임워크 ‘얼니(ERNIE)’를 선보였다. 얼니는 자연어처리 평가지표인 ‘GLUE(General Language Understanding Evaluation)’에서 90점 이상을 맞은 최초의 자연어 모델이 됐다.

바이두는 다양한 자연어 생성(NLG) 작업에서 최첨단 결과를 달성할 수 있도록 향상된 다중 트래픽 세크투세크(seq2seq) 사전 교육 및 미세 조정 프레임워크 얼니-젠(ERNIE-GEN) NLG를 제안했다.

바이두는 지난 10년간 ‘국가 과학 기술 진보상’을 포함해 상을 20개 이상 수상했고 언어와 지식 분야에서 30회 이상 세계 챔피언에 올랐다. 바이두 연구원은 학술지를 300개 이상 발행했고 2000개 이상의 특허를 출원했다.

◆ 다섯 개의 새로운 NLP제품

바이두는 5가지 언어 및 지식 제품을 선보였다.

의미 이해 플랫폼 ‘얼니(ERNIE)’: 의미 파악 플랫폼 얼니는 바이두의 심층 학습 플랫폼 패들패들(PaddlePaddle)과 사전 교육 프레임워크 ‘얼니’에 구축됐다. 얼니는 개발자가 기업용 NLP 모델을 취향에 맞게 설정 변경할 수 있도록 원스톱 솔루션을 제공할 수 있다. 얼니는 분류된 데이터 입력을 통해 모델을 교육 및 미세 조정하고 요청에 대한 API를 생성할 수 있다. 금융, 통신, 교육, 전자 상거래 산업에 걸쳐 2만명 이상의 개발자가 얼니를 자신의 사업에 적용했다.

TextMind: 은밀하게 광학 문자 인식 겸 NLP 기술을 지원하는 문서 비교, 검토 기능을 제공하는 지능형 문서 분석 플랫폼

바이두 두뇌의 지능형 창조 플랫폼: 콘텐츠 게시자용 글과 비디오 제작을 도울 수 있다. 플랫폼이 가동된 지 4개월 만에 7000명 넘는 사람이 AI 기반 영상합성 도구를 활용해 15만개의 비디오를 만들었다.

UNIT: 더 똑똑한 작업 중심의 대화 이해, 사용하기 쉬운 양식의 질문과 답변, 그리고 새로운 일반적인 대화 엔진이라는 세 가지 주요 특징이 있다.

AI동시 해석 회의 솔루션: 사용자를 위한 '회의 통역사' 역할을 하는 것을 목표로 하고 있다. 사용자는 한 대의 컴퓨터와 한 대의 휴대 전화로 동시 통역 서비스를 신속하게 구축할 수 있다.

[관련기사] "자연어처리(NLP)에도 버그 있다"...구글ㆍ아마존ㆍMS 클라우드서 발견

[관련기사] 바이두, 중국 AI 클라우드 시장 1위

키워드 관련기사
  • MS AI 언어모델, 구글 누르고 '1위' 등극..."아직 인간 실력만큼은 아냐"