강화학습과 재귀적 분해 방식 결합해 완성
짧은 내용끼리, 큰 사건은 따로 묶는 방식
GPT-3가 훈련하는 데이터셋 일부 차용
소설 요약은 그럴듯하지만... 한계 드러내기도

오픈AI가 사람보다 빠르게 몇 권의 방대한 책을 읽고 요약해주는 AI를 개발했다. (사진=셔터스톡).
오픈AI가 사람보다 빠르게 몇 권의 방대한 책을 읽고 요약해주는 AI를 개발했다. (사진=셔터스톡).

오픈AI가 사람을 대신해 책을 읽고 요약하는 언어모델을 개발했다.

오픈AI는 지난 23일(현지시간) 공식 블로그에 이 같은 소식을 전하며 “인간이 하기에는 오랜 시간이 걸리는 동시에 어려운 작업에 AI를 투입함으로써 다른 일을 할 수 있도록 도울 것”이라고 전망했다.

이 새로운 모델은 각 챕터 속 긴 내용(텍스트)과 짧은 것을 나눠 따로 요약해둔다. 이를테면 짧은 내용을 먼저 요약해 묶고, 큰 줄기를 차지하는 클라이맥스 같은 큰 사건은 더 높은 수준으로 요약해 정렬하는 방식이다. 연구진은 이를 ‘재귀적 업무 분해 방식(recursive task decomposition)’이라고 명명하고 강화학습과 결합시켰다.

강화학습 기반의 재귀적 분해 방식으로 훈련시키기 위해 연구진은 GPT-3가 학습하는 데이터셋 일부를 차용했다. 데이터셋에는 지난해 미국 내에서 가장 잘 팔린 도서 40권이 포함돼 있었다. 대부분 허구소설이었으며, 한 권당 평균 10만 단어가 포함된 것들이었다. 모델의 객관적인 평가를 위해 두 명의 연구원을 선별해 모델과 똑같은 책을 읽고 요약하게 한 다음, 비교하는 과정도 거쳤다. 이 결과 수 백, 수 천 페이지의 책도 요약이 가능한 AI를 개발했다.

연구진은 훈련을 통해 요약한 영미 고전 소설 네 편을 블로그에 공개했다. ‘이상한 나라의 앨리스’부터 셰익스피어의 ‘로미오와 줄리엣’ 등이다. 그러면서 모델이 “때로는 컨텍스트 부족으로 인해 부정확한 진술을 생성하기도 했다”고 솔직하게 밝혔다. 더욱이 소설로 훈련한 탓에 일관성 있는 요약보다 책의 사건 목록에 중점을 둔 요약법이 한계인 것으로 드러났다.

오픈AI가 개발한 줄거리 요약 모델이 셰익스피어의 '로미오와 줄리엣' 일부를 요약한 내용. (사진=openai.com/blog 캡처).
오픈AI가 개발한 줄거리 요약 모델이 셰익스피어의 '로미오와 줄리엣' 일부를 요약한 내용. (사진=openai.com/blog 캡처).

벤처비트는 이 결과를 두고 “추리 소설처럼 책의 이전 세부 사항들을 복선으로 장치해 끝에 가서 중요한 내용으로 드러나는 경우, 이를 포착하기는 어려울 것”이라고 평가했다.

그러나 책을 비롯한 문서를 요약하는 AI 출현은 예고되고 있다. 세계적 컨설팅 회사 매킨지에서는 직원들이 매일 평균 1.8시간(주당 9.3시간)을 할애해 작업 관련 정보를 검색하고 수집하는 것으로 나타났다.

뿐만 아니라 구글이나 마이크로소프트 같은 경쟁사에서도 문서를 요약해 문단을 생성하는 모델을 개발하고 있다. 페이스북도 사용자들을 위해 신문기사를 요약해주는 AI 툴을 개발 중이다. 모두 강화학습을 기반으로 제작 중인 것으로 알려졌다. 원하는 행동을 보상하거나 원하지 않는 행동을 처벌하는 훈련 방식은 사용자의 선호도에 따라 모델 요약을 조정해 같은 작업을 수행하도록 이끌 수 있다.

한편, 오픈AI 측은 이번 요약모델을 오픈소스로 공개할 계획이 없다고 밝혔다.

AI타임스 박혜섭 기자 phs@aitimes.com

 

[관련기사] ETRI, 사람처럼 문서 찾는 AI 검색 기술 개발

[관련기사] ‘커져가는 NLP 중요성’... 미 IT 기업, 지난해 비해 NLP 예산 10% 증가

키워드 관련기사
  • [김승일 칼럼] AI 리터러시 (3) : 인공지능 시대에서 살아남기
  • 셰익스피어의 소네트와 AI-셰익스피어의 소네트
  • [AI 실생활 체험기] "알면 편한데, 나만 몰랐어"...엑셀·파워포인트·MS워드에서 쉽게 쓸 수 있는 AI기능은?