트위터 사용자 6200여 명으로부터 100만 건 넘는 트윗 언어 분석
3번이상 허위사실 유포 계정과 한번이라도 신뢰가능한 출처 공유 계정 비교
인공신경망 훈련해 잘못된 정보 퍼뜨릴 가능성있는 계정 80% 확률로 예측
가장 효과적인 방법은 ‘T-BERT’ AI언어모델로 드러나

(사진=셔터스톡) 
(사진=셔터스톡) 

과거 SNS에 가짜뉴스를 배포한 전력이 있으면 AI가 미리 잡을 수 있게 됐다.

네덜란드 IT매체 더넥스트웹은 소셜미디어(SNS) 사용자가 정보를 공유하기 전 누가 허위정보를 퍼뜨리는지 탐지하는 AI 시스템을 영국 셰필드대 연구진이 개발했다고 15일(현지시간) 보도했다.

연구팀은 출처를 알 수 없는 콘텐츠를 트윗한 사용자 대다수가 정치나 종교 콘텐츠를 게재한 반면 신뢰할 만한 자료 출처를 밝히는 일반 사용자는 개인 사생활을 SNS에 더 많이 올리는 것으로 파악했다.

니코스 알레트라스(Nikos Aletras) 셰필드대 자연어 처리 강사 겸 연구 공동저자는 다소 무례한 언어 사용과 신뢰할 수 없는 콘텐츠 확산 간 상관관계는 온라인 특유의 공격성과 적대감에서 기인할 수 있다는 사실을 파악했다고 말했다.

연구팀은 트위터 사용자 6200여명으로부터 100만 건 넘는 트윗을 분석해 이 같은 결과를 얻었다. 이들은 그동안 기밀로 분류했던 트위터 뉴스 미디어 계정 목록에서 게시물을 수집하는 것으로 시작했다.

연구팀은 트위터 뉴스 계정에 있는 게시물 가운데 신뢰할 수 있는 포스팅과 없는 게시물을 구분했다. 신뢰할 수 없는 게시물은 풍자, 선전, 속임수, 조회 수를 높이기 위해 클릭을 유도하는 ‘클릭베이트(클릭과 미끼의 합성어)’ 등 총 네 범주로 세분화했다.

그러고 나서 트위터 공개 API를 사용해 각 소스에 대한 최신 트윗 3200개를 검색했고 원본 게시물만 남기기 위해 공유된 트윗(리트윗)을 목록에서 지웠다. BBC와 로이터 등 믿을 만한 출처 목록 251개를 만들고, 신뢰할 수 없거나 풍자 위주 웹사이트 159개를 삭제했다.

연구팀은 트위터 사용자 6200명을 적어도 세 번 이상 신뢰할 수 없는 정보를 게재한 사람과 신뢰할 수 있는 사이트 기사를 한 번이라도 공유한 사람. 두 그룹으로 나눴다.

마지막으로 연구진은 트윗 언어 정보를 사용해 사용자가 잘못된 정보를 퍼뜨릴 가능성이 있는지 여부를 예측하기 위해 일련의 인공신경망 모델들을 훈련했다. 가장 효과적인 방법은 T-BERT라고 불리는  AI언어모델을 사용했다. 연구진은 사용자가 신뢰할 수 없는 소스를 향후 게재할지 여부를 정확도 79.7%로 예측할 수 있다고 말한다.

이는 신경망 모델이 데이터에서 사용자가 만든 텍스트 콘텐츠(언어 사용)와 사용자의 향후 뉴스 소스 재트윗 확산 간 (비선형) 관계를 자동으로 드러낼 수 있음을 보여준다. 또 연구팀은 두 그룹 간의 언어 사용 차이를 탐지하기 위해 언어 특성 분석을 수행했다.

그들은 신뢰할 수 없는 출처를 공유한 사용자가 ‘자유, 정부, 미디어’ 같은 단어를 사용할 가능성이 더 높으며 중동에서 ‘이슬람’이나 ‘정치’가 자주 언급된다는 사실을 발견했다. 이와는 대조적으로 신뢰할 수 있는 자료를 공유한 사용자는 사회적 상호작용과 감정에 대해 자주 트윗 했고 ‘기분, 하고싶다(wanna), 생일’ 같은 단어를 자주 사용했다.

연구진은 그들의 연구가 SNS 기업이 잘못된 정보와 싸우는 데 도움이 되기를 바라고 있다.

이다 무(Yida Mu) 연구 공동저자ᆞ셰필드대 박사과정 학생은 "신뢰할 수 없는 뉴스 소스에서 콘텐츠를 공유하는 이용자 행태를 연구ᆞ분석하면 게시물이나 뉴스 소스 차원에서 작동하는 기존 팩트체크 방식을 보완해 사용자 차원에서 가짜 뉴스 확산을 막는 데 도움이 될 수 있다"고 말했다.

 

AI타임스 문재호 기자 jhmoon@aitimes.com

[관련기사] 美 연구진, GPT3 가짜뉴스 생성 가능성 경고

[관련기사] 딥페이크에 이은 페이크 페이스, GAN기술 진화 "지나치게 똑같다"

키워드 관련기사
  • "가짜뉴스에 더 많은 조치 취해라"...EU, 페북·구글·트위터에 촉구
  • "GPT-3는 희망인가, 위협인가"...논란 '팽팽'
  • 트위터, 中정부 연루 트윗 계정 17만개 삭제