AI 프레임워크를 활용하면 가짜뉴스 80% 검열

(사진=셔터스톡)
(사진=셔터스톡)

기술전문매체 벤쳐비트는 7일(현지시간) 가짜뉴스 판독 시스템에 관한 연구 내용을 실었다.

마이크로소프트(MS)와 애리조나 주립대 연구원이 인공지능(AI) 프레임워크인 '사회감독 약화 다중소스(MWSS)' 참여와 소셜 미디어 신호를 활용해 가짜 뉴스를 탐지하는 연구를 진행하고 있다는 내용이다.

기사는 실제 데이터 세트에서 모델을 교육하고 테스트 한 결과 가짜뉴스를 조기 발견 하기 위한 여러 최신 기준보다 향상된 결과를 보였다고 소개했다. 이 시스템의 정확성을 이용하면 미국 대통령 후보와 다른 논란이 되는 주제의 허위적이거나 오해의 소지가 있는 정보 확산을 막는데 도움이 될 것으로 기대된다는 것이다.

브루킹스연구소가 지난 2018년 실시한 조사에 따르면 미국 성인의 57%가 2018년 선거 기간 동안 가짜 뉴스를 봤고, 19%가 투표에 영향을 미쳤다고 답했다.

학술 문헌의 많은 가짜뉴스 분류자는 집계하는 데 오랜 시간이 걸리는 신호에 의존한다. 따라서 조기에 발견하기에 적합하지 않다. 일부는 편향되거나 인증되지 않은 사용자의 피드백에 쉽게 영향 받는 신호에만 의존한다.

이와는 대조적으로 이 연구 시스템에서는 사용자 및 각자의 사회적 참여와 관련한 다중 소스의 감독을 사용한다. 구체적으로는 소량의 수동 주석 처리된 데이터와 많은 양의 약하게 주석 처리된 데이터(소음이 많은 데이터)로부터 메타 학습 AI 프레임워크에서 공동 훈련을 한다.

라벨 가중 네트워크(LWN)라는 모듈은 가짜 뉴스 분류기의 학습 과정을 조정하는 취약한 레이블의 가중치를 모델링, 연구원이 뉴스 기사와 같은 사례를 참조하고 레이블을 입력으로 사용한다.

이것은 가짜 뉴스 분류기를 훈련시키는 데 있어서 인스턴스의 영향력을 결정하는 쌍의 중요도를 나타내는 값을 출력한다. 서로 다른 약한 신호 간의 정보 공유를 허용하기 위해 공유 형상 추출기는 LWN과 함께 공통 표현을 학습하고 기능을 사용하여 다른 취약한 라벨 소스에 형상을 매핑한다.

마이크로소프트(MS) 연구진은 오픈소스 페이크뉴스넷(FakeNewsNet) 데이터 세트를 벤치마킹했다. 페이크뉴스넷은 팩트체크 사이트 가십캅과 폴리티팩트(PolitiFact)의 전문가들이 주석을 단 뉴스 콘텐츠(본문 같은 메타 속성 포함)와 뉴스에 대한 트윗 등 사회 문맥 정보를 담았다.
BBC, 스카이뉴스 등 영국의 주류 언론사와 RT, 스푸트니크 등 러시아 언론사의 영문판 등 13개 정보원으로 구성된 말뭉치와 주로 정치와 관련된 내용을 통해 강화했다.

약한 라벨을 생성하기 위해, 연구원들은 뉴스를 공유하는 사용자들에 대한 감정 점수를 측정한 후 점수의 차이를 측정했다. 점수의 차이가 큰 정서가 크게 다른 기사들은 가짜로 분류되었다.

또 대중에 편견이 알려진 사람들을 제작하고 사용자의 관심사가 얼마나 그 세트와 밀접하게 일치했는지에 따라 점수를 계산하여 편견이 있는 사용자가 공유한 뉴스가 더 가짜일 가능성이 높다는 이론에 따라 운영했다.

마지막으로 소셜 미디어의 메타 정보를 기반으로 사용자를 집단화해 신뢰성을 측정하여 봇 네트워크 혹은 악의적인 캠페인을 나타내는 빅 클러스터를 형성한 사용자들이 신뢰성이 떨어진다고 판단했다.

실험 결과 페이스북의 로버르타(RoBERTA) 자연어 처리 알고리즘을 통합해 깨끗하고 약한 데이터를 조합해 훈련한 모델이 최고성능을 보였다. 연구진은 이 델이 가십캅과 폴리티팩트에서 각각 80%, 82%의 가짜뉴스를 정확하게 검열했다고 밝혔다. 이는 기준 모델보다 7%포인트이상 높은 수치다.

연구팀은 고품질의 약한 라벨을 얻기 위한 라벨 교정 방법 등 후속 연구에서 다른 기법을 연구하고 참여의 타임스탬프를 활용해 소셜 네트워크로부터 약한 감독 신호의 다른 유형을 고려하도록 프레임 워크를 확장할 수 있길 기대한다고 밝혔다.

이번 연구는 AI와 가짜 뉴스의 확산에 유일한 시도는 아니다. 최근 한 연구에서 MIT의 컴퓨터 과학 및 AI 연구소는 잘못된 뉴스 기사를 발견하기 위해 AI 시스템을 개발했으며 지그소우는 지난해 말 언론사들을 위한 가짜뉴스탐지도구 모음인 '어셈블러'를 발표했다.

또한 지난해 베타 버전으로 선보인 사스(SaaS) 플랫폼인 AdVerif.ai는 오보, 누드, 악성프로그램 및 기타 콘텐츠에 대한 기사를 분석한다. 또한 정기적으로 업데이트하는 수천 개의 가짜 및 합법적 인 뉴스 항목 데이터베이스를 상호 참조한다.이것의 부분으로 페이스북은 '계정과 허위 뉴스를 식별하는' AI도구를 배치하는 실험을 했다.