편집자 주
"언론이 신뢰를 잃었다." 이미 진부한 분석입니다. 2020년 오늘, 대한민국에서 가장 신뢰받는 미디어는 1백여년 역사를 자랑하는 신문도, TV도 아닙니다. 인공지능(AI)을 활용하는 구글의 유튜브와 네이버가 신뢰받는 미디어 1,2위. 영국 옥스포드대 부설 로이터 저널리즘연구소가 세계 각국 언론 신뢰도 조사를 시작한 이후 한국 언론 신뢰도는 단 한번의 예외도 없이 최하위를 지킵니다. (로이터 디지털 뉴스 리포트)
물론, 몇 가지 조사 결과가 한국 미디어 전부를 드러내진 못합니다. 그러나 적어도 "기레기ㆍ뒷광고 논란에 휩쌓인 기존 언론의 자리를 알고리즘에 기반한 소셜미디어가 장악해가는 추세"는 분명해 보입니다.
1989년 영국의 팀 버너스리 경은 하이퍼텍스트 시스템을 개발하고, 특허 대신 공개와 공유를 선택했습니다. 이후 눈부시게 발전한 월드와이드웹 세상에서 전통적 언론사들은 기술을 외면했거나 뒤처졌습니다. 영향력을 잃었고 가짜뉴스 논쟁에 휘말렸습니다.
한편, 디지털 기술에 바탕한 소셜미디어는 폭풍 성장을 거듭하고 있습니다. 인공지능 관련 기술은 소셜미디어에 날개를 달아준 형국입니다.
특별취재팀은 물었습니다. 인공지능이 저널리즘을 대체할 수 있고, 대체하는 것이 오히려 바람직한 것인가?
특별취재팀= 장준하ㆍ이윤정ㆍ윤영주ㆍ박혜섭ㆍ김재호 기자
팀장= 권영민 전문위원ㆍ실장
자연어 처리(Natural Language Process)는 컴퓨터가 인간의 언어를 이해하고 활용하는 인공지능의 핵심 기술 중 하나다. 2018년 구글이 공개한 BERT와 올해 10월부터 유료화 된 OpenAI의 GPT-3가 대표적. BERT와 GPT-3는 대량의 말뭉치 데이터로 사전학습(Pre-training)을 진행한 뒤 추가적인 모델(CNN, RNN 등)에 전이 학습(Fine-tuning) 단계를 거쳐 원하는 과제를 수행하는 거대 언어모델이다.
NLP의 하위 카테고리로는 자연어 생성(Natural Language Generation), 자연어 추론(Natural Language Interference) 등이 있다.
말뭉치(Corpus)라는 데이터를 기계학습에 활용해 기계에게 자연 언어 처리 기능을 만들어낸다. 최근 딥러닝 기술이 도입되며 방대한 양의 텍스트 데이터를 학습시켜 성능을 향상시켰다. 텍스트에서 특정 정보추출, 기사 작성, 간단한 대화 등 다양하게 활용 되고 있다.
인공지능의 맞춤법 검사는 서로 다른 데이터셋을 대조하여 어떤 단어가 잘못되었는지, 어떻게 고치면 좋을지 등을 제안한다. 언어모델이 사전에 대량으로 학습한 말뭉치 데이터와 입력받은 단어들을 대조하고, 이를 통해 맞춤법이 맞는지 확인하는 것.
자언어 모델은 자연어를 분석하는데 이는 형태소 분석(morphological analysis), 구문 분석(syntactic analysis), 시멘틱 분석(semantic analysis)과 실용 분석(pragmatic analysis) 으로 나뉜다.
형태소는 최소한의 언어 단위라고 할 수 있다. 형태소 분석이란 단어 혹은 어절을 구성하는 각각의 형태소를 인식하고 파괴된 형태가 있다면 이를 복구하는 과정이다. 깃허브에 소개된 Hunspell 한국어 맞춤법 사전은 색인어 추출을 위해 형태소 분석을 실행한다. 이는 명사를 추출하기 위함인데, 명사를 추출하기 위해서는 부가적인 용언(동사, 형용사)을 분리해야 한다.
한국어 맞춤법 사전은 각 문자열 별로 색인어 추출을 위한 기준을 제공한다. 크게 체언과 용언으로 나누고, 특수문자, 영문, 숫자가 포함된 경우 이를 언어 모델이 한글과 자동으로 토큰(분리)시킨다. 시멘틱 분석은 토큰 시킨 단어들을 다시 하나의 문장으로 만드는 작업이다.
AI, 저널리즘을 부탁해 시리즈 목차
제1회: 기자와 '기레기'
제2회: 내근(편집ㆍ미술ㆍ교열)부서의 위기
제3회: 외근(취재)부서의 명암
제4회: 객관주의ㆍ개입주의 재정립되나(사진부)
제5회: 뉴욕타임스도 한글로 본다(국제·외신부)
