편집자 주

"언론이 신뢰를 잃었다." 이미 진부한 분석입니다. 2020년 오늘, 대한민국에서 가장 신뢰받는 미디어는 1백여년 역사를 자랑하는 신문도, TV도 아닙니다. 인공지능(AI)을 활용하는 구글의 유튜브와 네이버가 신뢰받는 미디어 1,2위. 영국 옥스포드대 부설 로이터 저널리즘연구소가 세계 각국 언론 신뢰도 조사를 시작한 이후 한국 언론 신뢰도는 단 한번의 예외도 없이 최하위를 지킵니다. (로이터 디지털 뉴스 리포트)

물론, 몇 가지 조사 결과가 한국 미디어 전부를 드러내진 못합니다. 그러나 적어도 "기레기ㆍ뒷광고 논란에 휩쌓인 기존 언론의 자리를 알고리즘에 기반한 소셜미디어가 장악해가는 추세"는 분명해 보입니다.

1989년 영국의 팀 버너스리 경은 하이퍼텍스트 시스템을 개발하고, 특허 대신 공개와 공유를 선택했습니다. 이후 눈부시게 발전한 월드와이드웹 세상에서 전통적 언론사들은 기술을 외면했거나 뒤처졌습니다. 영향력을 잃었고 가짜뉴스 논쟁에 휘말렸습니다.

한편, 디지털 기술에 바탕한 소셜미디어는 폭풍 성장을 거듭하고 있습니다. 인공지능 관련 기술은 소셜미디어에 날개를 달아준 형국입니다.

특별취재팀은 물었습니다. 인공지능이 저널리즘을 대체할 수 있고, 대체하는 것이 오히려 바람직한 것인가?

특별취재팀= 장준하ㆍ이윤정ㆍ윤영주ㆍ박혜섭ㆍ김재호 기자
팀장= 권영민 전문위원ㆍ실장

월스트리트저널(WSJ)이 만든 소프트웨어(SW) 'Talk 2020' 메인 홈페이지. 이 SW로 대선 후보의 지난 성명ㆍ발언 자료를 검색해 찾을 수 있다.
월스트리트저널(WSJ)이 만든 소프트웨어(SW) 'Talk 2020' 메인 홈페이지. 이 SW로 대선 후보의 지난 성명ㆍ발언 자료를 검색해 찾을 수 있다.

#CASE 1. 미국 언론사의 편집국 사무실. 수십 명의 기자가 컴퓨터 앞에 앉아 생중계 중인 미국 대통령 후보의 토론을 집중하고 있다. 바이든 후보의 말을 듣자 기자는 트럼프의 지난 발언을 찾아보기 위해 Talk2020 소프트웨어(SW) 프로그램을 이용한다. 이후 과거 트럼프의 발언을 기사에 인용ㆍ활용한다. 다른 기자는 이 SW로 두 후보의 지난 성명을 모두 검색한 뒤 그들이 집중하고 있는 사회문제가 무엇인지 정리한 기사를 썼다. 또 두 후보의 말이 진실인지 확인할 수 있도록 관련 데이터를 추가로 확보해 데이터 기사를 작성했다.

#CASE 2. 미국의 지역 라디오 방송국은 모바일 참여 플랫폼 기업과 협력해 지역민의 뉴스 참여를 유도했다. 주말과 저녁마다 7명으로 구성한 팀이 웹 사이트의 FAQ를 담당하고 있는 디지털 편집자와 협력, 문자 메시지와 음성 등을 이용해 코로나19 관련 지역민의 질문을 받아 실시간으로 답변을 했다. 지난 3월 초부터 5월까지 총 3300여개의 질문을 받았으며, 이 중 2900여개 이상을 기자들이 답변했다.

언론사가 인공지능(AI)과 빅데이터 등을 취재에 활용하고 있다. 넘치는 정보 홍수 시대에서 정제한 데이터를 빠르게 확보하기 위한 노력이다.

저널리즘의 생명은 신뢰의 확보이고, 신뢰를 담보해주는 건 정확한 데이터와 사실(fact)이다. 데이터는 정확성과 객관성을 보장해 주장의 정당성을 심어준다. 데이터의 형태는 단순 숫자에 머무르지 않는다. 학계 연구, 시장분석결과, 현장 상황 등 다양한 정보ㆍ지식을 넘어 개인의 의견을 비롯한 지혜를 포함한다.

한 편의 뉴스를 생산하기까지 저널리스트는 많은 역할을 한다. 뉴스의 가치를 판단ㆍ분석하고 데이터를 찾아 나서며 창작의 고통을 감내해야 한다. 이 같은 이유로 저널리즘은 인간 고유의 영역일 것이라고 생각했다.

하지만 최근 4차 산업혁명 시대로 진입하며 저널리즘 영역에도 예외없이 변화가 찾아왔다. 인공지능(AI) 기술과 대규모 빅데이터를 바탕으로 한 컴퓨터 알고리즘이 기사를 생산하기 시작한 것이다.

◆ '로봇 저널리즘'의 등장…인간의 대체재인가, 보조적 수단일 뿐인가

로봇 저널리즘은 컴퓨터를 뜻하는 로봇과 뉴스 보도를 의미하는 저널리즘의 합성어다. 컴퓨터가 짜여진 알고리즘을 바탕으로 데이터를 수집ㆍ분석해 정보를 분류하고 스스로 뉴스를 제작하는 것을 말한다.

(사진=셔터스톡)
(사진=셔터스톡)

로봇 저널리즘은 뉴스 생성에 필요한 시간과 비용을 단축하고 단순 반복적 업무를 줄이기 위해 등장했다. 사실을 바탕으로 한 단신 기사나 데이터 값이 명확한 뉴스를 작성할 수 있도록 알고리즘을 설계한 뒤 기계에 적용, 속보성 뉴스를 빠르고 정확히 처리하는 데 초점을 맞췄다.

이에 저널리스트의 주관 개입을 최소화한 객관적 뉴스 제작이 가능하고 단순 기사를 빠르게 작성해 업무 효율을 높일 수 있다. 또 추천 알고리즘을 활용한 개인 맞춤형 뉴스 제공, 뉴스 요약ㆍ유통 등 이용자 경험(UX)을 고려한 서비스를 실현할 수 있다.

하지만 소비자에게 필터링된 정보를 제공하기 때문에 뉴스 소비의 편향성을 확대한 필터버블을 야기할 수 있다. 소비자의 뉴스 선택권도 제한할 위험이 있다.

지난 4월 NC소프트는 국내 언론사와 공동 연구를 수행해 머신러닝(ML)ㆍ자연어처리(NLP) 기술을 이용한 기사 작성 AI를 개발, 날씨 기사를 생산하는 데 적용했다. 국내 언론에서 두 기술로 기사를 자동 작성한 것은 이번이 첫 사례다.

해외 매체의 경우 내러티브 사이언스가 스탯몽키의 기사 작성 알고리즘 퀼(Quill)을 이용했다. 퀼은 기업 실적, 금융, 스포츠 경기 결과 등을 데이터로 입력하면 10초 이내로 기사를 자동 작성한다. 2012년 포브스도 퀼을 적용해 증권 시황, 스포츠 경기 결과 등 단신 기사를 자동 작성했다.

로봇 저널리즘 도입으로 일부에서 인간 저널리스트를 대체할 것이라는 시각과 저널리스트의 보조적 수단일 뿐이라는 반론이 대립하고 있다.

2018년 정보통신산업진흥원(NIPAㆍ원장 김창용)이 발표한 로봇 저널리즘의 이해와 전망 보고서는 미디어에 로봇의 영향력이 확대하면서 로봇의 기자 대체 여부를 두고 다양한 논의가 이뤄지고 있다고 설명했다. 하지만 로봇을 인간 기자의 대체제로 보는 시각보다 조력자로 보는 의견이 우세하다고 짚었다.

◆ 크롤링부터 데이터 마이닝까지…취재를 돕는 AI

AI를 비롯한 정보통신기술(ICT)은 기존 레거시 미디어의 취재 환경을 변화시켰다.

대표적인 사례가 웹 크롤링이다. 웹 크롤링은 검색 엔진을 비롯한 여러 사이트에서 자신에게 유의미한 데이터를 찾아 모으는 일이다. 저널리스트는 웹 크롤링을 취재 방식 중 하나로 활용하며 주요 논문 분석, 해외 동향 파악 등에 이용한다. 하지만 기술 발전에 따라 웹의 규모가 커지며 데이터를 수집하는 데 효율성이 떨어졌다.

이에 AI 알고리즘 기반 웹 크롤링 툴을 이용해 물리적 한계를 보완하고 있다. 수십 개의 데이터 추출 기능으로 원하는 시간에 웹 크롤링을 자동 실행할 수 있고, 특정 키워드를 설정할 경우 관련 뉴스ㆍ포럼ㆍ업데이트를 확보할 수 있다.

Talk 2020은 지난 2018년 월스트리트저널(WSJ)이 만든 SW 프로그램으로 대통령 후보와 부통령 파트너의 과거 성명을 조회할 수 있다. WSJ 연구개발(R&D)팀은 데이터셋을 확보하기 위해 WSJ 기자와 편집자가 취재한 자료를 모두 수집했고, 인용문ㆍ데이터ㆍ맥락을 빠르게 찾을 수 있도록 정형화하지 않은 데이터를 사용 가능한 형식으로 바꾸는 데 힘을 쏟았다. 이후 독자 습관을 파악하고 독자의 피드백을 수렴해 SW 프로그램을 업데이트, Talk 2020을 대중에게 공개했다.

빅데이터 분석 기업 데이터마이너(Dataminr)는 AI 기술을 이용해 실시간 정보 알림 서비스를 제공하고 있다. 이외, 아웃윗허브(OutWit Hub)와 옥토파스(Octoparse) 등 웹 크롤링 툴이 있다.

구글 트렌드를 비롯한 실시간 검색 서비스도 활용한다. 언론의 주요 기능 중 하나는 의제 설정이다. 매체가 중요하다고 생각하는 특정 이슈를 선정ㆍ보도할 경우, 그 이슈가 대중에게도 중요한 의제로 받아들여지는 것을 말한다.

하지만 실시간 검색 서비스를 이용할 경우 반대로 대중이 선정한 의제를 파악할 수 있다. 이후 관련 심층 분석 기사, 해설 기사, 뉴스 큐레이팅 등 대중에게 필요한 뉴스를 제작ㆍ전달할 수 있다.

지역민의 저널리즘 참여를 유도한 'LAist' 매체 메인 홈페이지

독자의 저널리즘 참여를 유도한 사례도 있다. 미국 캘리포니아주에서 활동하고 있는 비영리 교육 라디오 방송국 89.3 KPCC는 자사 공공 미디어 네트워크 LAist를 이용해 코로나19와 관련한 지역민의 질문을 받았다. 이후 각 기자가 다양한 정보를 바탕으로 문자 메시지와 메일 등을 활용, 지역민의 질문에 답을 했다.

단순한 정보 수집을 넘어 데이터마이닝도 가능하다. 데이터마이닝은 수학적ㆍ통계적 해석과 다양한 패턴 기술 등을 활용해 대용량 데이터 속 숨겨진 상관관계를 찾아내는 것이다. 이 행위에 AI 알고리즘을 적용할 경우 빠른 데이터 분석이 가능하다.

여기서 파생한 것이 데이터 저널리즘이다. 2015년 한국언론진흥재단이 출간한 데이터 저널리즘 : 스토리텔링의 과학에 따르면, 데이터 저널리즘은 저널리즘 행위로 만든 창조물을 뒷받침할 수 있도록 관련 데이터를 수집ㆍ분석ㆍ시각화한 것이다.

통계용 오픈소스 프로그램 R, 마이크로소프트(MS) 소프트웨어(SW) 엑셀, 데이터 분석ㆍ시각화 앱 태플로 퍼블릭 등이 대표적인 데이터마이닝 프로그램이다.

최근 많은 매체가 데이터 저널리즘에 집중하고 있는 추세다. 시각화 자료를 제시해 직관적인 정보 전달이 가능하고, 빅데이터를 다양한 관점에서 재해석해 숫자 뒤에 숨은 새로운 사실을 찾아낼 수 있기 때문이다. 또 수십 년간 쌓인 데이터를 활용하는 만큼, 객관적 근거가 충분하다.

하지만 데이터를 바탕으로 하기 때문에 데이터 자체에 오류나 편향성 등이 있을 경우 뉴스 신뢰도를 확보할 수 없다. 철저한 데이터 검증이 필요한 이유다.

◆ 피할 수 없는 AI 시대, 저널리스트를 대체할 것인가

기술의 발전은 속도의 차이를 가질 뿐 상향 곡선을 그리며 성장한다. 일부 기술론자는 기술이 인간의 지능을 따라잡는 특이점 시기에 사회ㆍ문화ㆍ기술 분야의 큰 변화가 올 것으로 전망하고 있다.

(사진=셔터스톡)

NIPA 보고서는 AI 기술 발전과 함께 로봇 저널리즘 수준이 진화할 것으로 예측했다. 음성 인식, 이미지ㆍ패턴 인식, 자동 번역 등 기술과 접목해 국제 뉴스 작성이 가능할 것이며 관련 이미지와 동영상을 덧붙인 기사 생성이 가능할 것이란 설명이다.

크리스터 클러월 스웨덴 칼스타드대학 미디어 커뮤니케이션 과학 교수는 2014년 로봇 저널리즘 입문 보고서를 통해 기자가 쓴 기사와 SW가 작성한 기사를 비교 실험한 결과를 소개했다.

이 연구에서 SW의 기사는 총 12개 평가 항목 중 ▲서술(Descriptive) ▲사용가능(Usable) ▲정보 제공성(Informative) ▲지루함(boring) ▲정확성(Accurate) ▲신뢰성(Trustworthy) ▲객관적(Objective) 7개 항목에서 기자의 글보다 우수하다는 평가를 받았다.

반면, 기자의 글은 ▲일관성(Coherent) ▲잘 쓰여진(Well written) ▲분명함(Clear) ▲읽기 좋은(Pleasent to read) ▲흥미성(Interesting)에서 앞섰다.

이 같은 변화 흐름에서 저널리즘은 AI 기술을 이용해 업무를 보완해 나갈 것으로 보인다.

NIPA 보고서는 스포츠 경기와 주가 동향 등 통계 정보를 바탕으로 정확한 정보를 전달하는 기사의 경우 로봇 저널리즘 활용이 활성화할 것으로 예측했다. 정형화한 기사를 로봇 저널리즘으로 대체해 기자가 심층 분석 기사 작성에 집중할 수 있도록 할 것이란 설명이다.

이에 보고서는 로봇 저널리즘에 따른 기자의 대체 여부보다 기술 발전ㆍ변화가 언론에게 제시한 시사점을 검토하고 기자에게 미칠 영향을 살펴야 한다고 제언했다. 이어 데이터 편향을 비롯한 알고리즘 기사의 정확성ㆍ신뢰성 문제 해결을 위한 고민이 필요하다고 짚었다.

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지