편집자 주

"언론이 신뢰를 잃었다." 이미 진부한 분석입니다. 2020년 오늘, 대한민국에서 가장 신뢰받는 미디어는 1백여년 역사를 자랑하는 신문도, TV도 아닙니다. 인공지능(AI)을 활용하는 구글의 유튜브와 네이버가 신뢰받는 미디어 1,2위. 영국 옥스포드대 부설 로이터 저널리즘연구소가 세계 각국 언론 신뢰도 조사를 시작한 이후 한국 언론 신뢰도는 단 한번의 예외도 없이 최하위를 지킵니다. (로이터 디지털 뉴스 리포트)

물론, 몇 가지 조사 결과가 한국 미디어 전부를 드러내진 못합니다. 그러나 적어도 "기레기ㆍ뒷광고 논란에 휩쌓인 기존 언론의 자리를 알고리즘에 기반한 소셜미디어가 장악해가는 추세"는 분명해 보입니다.

1989년 영국의 팀 버너스리 경은 하이퍼텍스트 시스템을 개발하고, 특허 대신 공개와 공유를 선택했습니다. 이후 눈부시게 발전한 월드와이드웹 세상에서 전통적 언론사들은 기술을 외면했거나 뒤처졌습니다. 영향력을 잃었고 가짜뉴스 논쟁에 휘말렸습니다.

한편, 디지털 기술에 바탕한 소셜미디어는 폭풍 성장을 거듭하고 있습니다. 인공지능 관련 기술은 소셜미디어에 날개를 달아준 형국입니다.

특별취재팀은 물었습니다. 인공지능이 저널리즘을 대체할 수 있고, 대체하는 것이 오히려 바람직한 것인가?

특별취재팀= 장준하ㆍ이윤정ㆍ윤영주ㆍ박혜섭ㆍ김재호 기자
팀장= 권영민 전문위원ㆍ실장

 

BLEU Score(Bilingual Evaluation Understudy Score)

‘기계 번역’을 평가하는 방법 가운데 하나다. 기계 번역은 컴퓨터를 통해 하나의 언어로 된 텍스트를 다른 언어로 자동 변환하는 기술을 말한다. 번역 품질 평가는 기계가 하는 ‘자동 평가’와 사람이 하는 ‘사람 평가’가 있다. 여러 가지 자동 평가 방법 가운데 보편적으로 사용되는 'BLEU'에 대해 알아보자.

BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교해, 기계가 번역한 문장과 정답 문장 간의 정확도를 측정하는 방법이다. 언어에 구애받지 않고 사용할 수 있으며 계산 속도가 빠르다는 장점이 있다. 번역된 문장이 정답 문장과 유사할수록 높은 점수를 얻으며 원어민에 가까운 해석으로 평가된다.

가령 번역기를 이용해 번역할 경우 어떤 방식으로 평가가 이뤄질까? 우선 사람이 영작한 번역 문장 가운데 등장한 단어를 번역기로 번역된 문장에서 센다. 이후 공통적으로 등장한 모든 단어 개수를 번역기 문장의 총 단어 수로 나눈다. 이 같은 측정 방법을 '유니그램 정밀도(Unigram Precision)'라 한다.

(사진=지콘스튜디오)
(사진=지콘스튜디오)

번역기로 번역된 두 개의 문장을 비교할 때 사람이 영작한 문장들에서 등장한 단어가 많을수록 더 좋은 번역 문장이 되는 것이다. 하지만 이 같은 방식으로 번역 성능을 측정할 시 허점이 생긴다.

위 계산법으로만 보면 ‘the the the the the the the’라는 한영 번역이 7/7=1로 최고점을 받게 되는 어이없는 상황이 벌어지기 때문이다. 즉 상기 공식에서 분자의 단어 수 계산법을 새롭게 정립할 필요가 있다. 즉 번역기 문장 단어가 각각의 평가 기준이 되는 문장에서 최대 몇 번 등장했는지 세어 기존의 단순 계산한 값보다 작은 경우 최종 값으로 대체한다. 즉 평가 기준 문장들과 비교해 세는 과정에서 중복을 제거해 보정한다는 이야기다.

유니그램의 정밀도 보정을 통해 근본적 문제는 해결됐다. 하지만 여전히 문제는 있다. 유니그램은 각 단어의 빈도수로 접근하는 방법이기 때문에 단어의 순서는 전혀 고려되지 않는다. 이제 카운트 단위를 바이그램(Bigram), 트라이그램(Trigram) 등 n-그램으로 확장해 단어의 순서까지 고려하는 작업이 남았다. 결국 BLEU는 보정된 정밀도를 모두 조합해 사용한 식인 셈이다.

 

 

키워드 관련기사
  • [특별 기획] AI,저널리즘을 부탁해! ⑤ : 뉴욕타임스 이제 한글로 본다
  • [특별 기획] AI, 저널리즘을 부탁해! ①-1 : LSE 보고서 요약(번역)
  • ETRI, VR의 멀미도 저감 기술 3종 개발...정신ㆍ심리 치료에 활용 기대