1700년~1963년 사이 1600만부에서 이미지 추출
150만개 데이터 입력…키워드로 관련자료 ‘쏙쏙’

미 의회도서관이 1700년대 말부터 1963년 사이 1600만부 신문 속 이미지만 검색해 보여주는 AI를 개발했다. (사진=The Library of Congress).
미 의회도서관이 1700년대 말부터 1963년 사이 1600만부 신문 속 이미지만 검색해 보여주는 AI를 개발했다. (사진=The Library of Congress).

옛 신문에 실린 사진을 찾아주는 인공지능(AI) 툴이 나왔다.

TNW 등 외신은 16일(현지시간) 워싱턴DC 의회도서관이 지난 1789년부터 1963년 사이에 발행된 신문 1600만부에서 사진을 비롯한 ‘시각적 콘텐츠’를 찾아주는 AI 툴 ‘뉴스페이퍼 네비게이터’를 개발, 출시했다고 보도했다.

의회도서관 측은 네비게이터 구조를 오픈소스로 공개할 예정이다. 이 툴은 벤 리 의회도서관 연구원이 지난 2017년 공개된 비욘드 워즈라는 도서관 클라우드 소싱 기능을 보고 아이디어를 내 개발했다.

의회가 보유한 신문 1600만부에서 사진 150만장 이상을 반복 학습 훈련하고, 광학 문자 인식 기능을 사용해 각 기사에서 헤드라인과 캡션을 추출했다. 기사 주석을 훈련된 물체탐지 기능을 사용해 시각적 부분만 자동으로 떼어 분류하도록 했다.

의회도서관 웹 페이지에서 키워드를 입력하면 AI가 150만장 데이터 집합에서 키워드와 일치하는 항목을 보여준다. 이미지를 다운로드하거나 기사 및 관련된 전체 이슈를 읽을 수도 있다.

네비게이터는 사진 이외에도 삽화, 만화, 지도, 광고 등 모든 시각적 자료를 분석해 제공한다.

의회도서관의 AI 툴 네비게이터는 검색어에 따라 관련 이미지만 빠르게 분류해 보여준다. 사진은 1600만부 가운데 '야구선수' 관련 이미지만 정리한 모습. (사진=The Library of Congress).
의회도서관의 AI 툴 네비게이터는 검색어에 따라 관련 이미지만 빠르게 분류해 보여준다. 사진은 1600만부 가운데 '야구선수' 관련 이미지만 정리한 모습. (사진=The Library of Congress).

리 연구원은 “머신러닝을 이용해 수많은 신문에서 원하는 이미지만 얻는다는 것은 보물 상자를 여는 열쇠나 다름 없다”고 말했다. 또 개발작업에 참여한 짐 케이시 펜실베니아 주립대 미국학 교수는 네비게이터에 대해 “당시 언론이 시각적 요소를 어떻게 다루었는지 알려주는 중요한 역사적 연구자료”라고 평가했다.

[관련기사] AI가 부리는 마법…100년 전 영화필름 복원

[관련기사] 앨범자켓만으로 장르 구분하는 AI 나온다

키워드 관련기사
  • “잃어버린 시간을 찾아서”…AI로 옛 유럽의 향기를 재현하다