AI 기반 컴퓨터공학 분야 논문 요약 시스템 ‘시멘틱 스칼라’
전체 논문 분량 1/238로 요약…기존 툴보다 압축률 뛰어나
영문 논문만 가능…향후 다른 언어까지 적용대상 확대 전망
AI2연구소, 폴 앨런 마이크로소프트(MS) 공동창업자가 설립

(사진=셔터스톡).
(사진=셔터스톡).

방대한 양의 긴 논문들을 읽고 요약해주는 인공지능(AI)이 나왔다. 보통 시간을 들여 읽기에 너무 긴 논문들의 경우 ‘tl;dr’이라고 표시해 걸러내기도 한다. ‘tl;dr’는 ‘너무 길어서 읽지 않음(Too long, didn't read)’의 줄임말로 흔히 "글이 너무 장황하고 읽기 힘드니까 좀 간결하게 써봐라"라는 비난의 뉘앙스도 담겨있다.

하지만 이제는 AI가 ‘tl;dr’를 남기는 수고를 덜어줄 전망이다. 불필요한 논문들을 읽느라 시간 낭비하는 일 없이 보다 효율적으로 자신이 필요한 논문에만 집중할 수 있게 된다는 이야기다. 그동안 수많은 논문 제목과 초록을 훑어보느라 애를 먹었던 이들에게 희소식이다.

미국 시애틀 소재 ‘앨런인공지능연구소(AI2)’가 긴 분량의 컴퓨터공학 분야 논문 검토 시간을 크게 단축시킬 수 있는 AI 기반 시스템 ‘시멘틱 스칼라(Semantic Scholar)’를 공개했다고 24일(현지시간) 테크 익스플로어(Tech Xplore) 등 외신이 전했다. AI2는 폴 앨런 마이크로소프트(MS) 공동창업자가 지난 2014년 설립했다.

시멘틱 스칼라는 AI 기술을 활용한 과학연구 툴이다. 이번에 개발된 새로운 요약 기능은 방대한 양의 과학연구 논문을 조사해 간결한 핵심 문장으로 압축할 수 있다. 이 시스템에 대한 초기 테스트 이후 긍정적인 반응이 쏟아졌다. 일각에서는 아직 완벽하지는 않지만 시스템의 성능과 가능성을 고무적으로 평가했다.

현재 시멘틱 스칼라 데이터베이스에 등록된 컴퓨터공학 관련 논문은 약 1000만 건에 달한다. 또 월 700만 명 이상이 시멘틱 스칼라를 사용하고 있는 것으로 추산된다. 데이터베이스 관리자에 따르면 향후 다른 학문 분야의 논문들도 점진적으로 추가될 계획이다.

지난 수년 동안 문서 요약을 위한 다양한 자연어처리(NLP) 프로그램이 개발돼 왔다. 이 중 시멘틱 스칼라는 가장 높은 압축률을 달성한 것으로 평가받는다. 과학 논문이 평균 약 5000개 단어라고 했을 때 시멘틱 스칼라는 약 21개 단어로 요약해낼 수 있다. 즉 평균적으로 전체 논문 분량의 1/238로 요약 가능하다는 이야기다. 다른 시스템의 경우 논문 분량의 최대 1/36까지 요약하는 게 고작이었다.

AI2 연구팀은 해당 프로그램 관련 코드를 무료로 공개한다는 방침이다. 아울러 데모 사이트(scitldr.apps.allenai.org)를 개설해 공개했다. 현재로서는 영문으로 작성된 논문에만 적용 가능하다. 하지만 연구팀은 앞으로 다른 언어로 된 논문으로까지 활용 대상을 확대해나가겠다는 포부다.

[관련기사] KISTI, AI가 읽어주는 'ScienceON 논문 요약 서비스' 개시

[관련기사] 페이스북, AI로 100개 언어 번역 기능 제공한다 

키워드 관련기사
  • GPT-3보다 더 똑똑한 AI가 온다
  • GPT3 능가하는 자연어 모델 훈련 알고리즘 등장
  • 오픈AI, 자연어 처리(NLP) 모델용 API 출시