AI 기반 자동 텍스트 요약 시스템 ‘페가수스’ 개발
뉴스‧과학‧특허‧법안‧이메일 등 다양한 영역서 가능

(사진=Google Brain). ©AI타임스
(사진=Google Brain). ©AI타임스

(AI타임스=윤영주 기자) 이제 인공지능(AI) 기술을 통해 매끄럽고 정교한 문서 요약이 가능해졌다.

구글의 딥러닝 인공지능(AI) 프로젝트 구글 브레인(Google Brain) 연구팀이 영국 임페리얼 칼리지 런던(Imperial College London)과 협업해 일명 ‘페가수스(Pegasus, Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence)’라는 AI 기반의 자동 텍스트 요약 시스템을 개발했다.

구글에 따르면 이번 페가수스 모델은 기존의 텍스트 요약 시스템보다 훨씬 자세하고 간결한 요약이 가능하다. 특히 연구진은 "페가수스 모델이 유창성과 일관성 측면에서 언어학적으로 높은 수준을 보였다"며 "단 100개 데이터 값만 주어져도, 수 십만개의 데이터를 이용해 요약한 기존 요약시스템과 비교해 품질이 더 뛰어나다"고 설명했다. 

이를 통해 문자 선택과 조합 만으로 단순하게 이뤄진 기존 요약시스템이 훨씬 더 자연스럽고 정교해질 전망이다.

현재 사용되고 있는 기술은 하나의 요약문 생성을 위해 여러 텍스트 부분들을 선택‧조합하는 것이나 구글 브레인은 한발 더 나아가 자사의 AI 기술을 이용해 새로운 단어를 생성해 각기 다른 부분들을 연결함으로써 언어학적으로 유려하고 일관성 있는 자연스러운 요약본을 만들어낸다.

연구진의 테스트 결과 가장 뛰어난 성능을 보인 페가수스 모델은 5억 6,800만 개의 매개 변수(parameters) 또는 기존 데이터로부터 학습된 변수가 포함돼 최적화된 프로그램이라 연구진은 자부한다. 또 알고리즘을 학습시키기 위해 이 모델은 3억 5,000만 개의 웹페이지에서 뽑아낸 750GB의 텍스트 및 뉴스와 뉴스 유사 웹사이트에서 수집한 총 3.8TB의 15억 개 기사 등을 통해 훈련됐다.

페가수스 모델은 뉴스에서부터 과학, 특허, 법안, 이메일 등에 이르기까지 다양한 영역의 텍스트를 요약할 수 있다. 연구팀은 향후 이 같은 AI 기반 자동 요약 시스템이 일부 직종에서 시간 절감과 업무의 효율성 개선 효과를 가져올 것으로 기대하고 있다.

【에이아이타임스 aitimes 에이아이타임즈】