▲페이스북이 대규모 머신러닝 시스템을 새롭게 개발했다(출처=셔터스톡)

수백만 명이 매일 페이스북(Facebook)에 로그인하고 자신의 사진을 올리거나 글을 쓴다. 이에 따라 페이스북에 업로드되는 모든 내용에서 유해한 콘텐츠를 골라내기란 매우 어려운 일이다. 하루에도 어마어마한 양의 콘텐츠가 업로드되기 때문이다.

유튜브와 트위터같은 소셜 네트워킹 서비스 업체도 이런 문제를 인정하고 있다. 페이스북은 플랫폼을 규제하는 데 인공 지능(AI)이 도움이 될 것이라고 말했다.

텍스트 추출 및 복사

페이스북 전문가들은 로제타(Rosetta)라는 대규모 머신러닝 시스템을 개발 및 배포했다고 발표했다.

로제타는 비디오 및 이미지의 텍스트를 식별할 수있는 새로운 시스템이다.

10억 개 이상 페이스북 및 인스타그램(Instagram) 공개 계정에 다양한 언어의 콘텐츠가 포함된 동영상과 텍스트가 업로드 된다. 이 프로그램은 텍스트와 이미지가 결합된 문맥을 이해한다.

비즈니스투데이에 따르면, 로제타는 이미 실시간으로 페이스북 및 인스타그램에 게시된 셀 수 없이 많은 비디오 및 이미지에서 관련 정보를 추출하고 있다. 시스템은 동영상이나 이미지에 포함된 내용을 텍스트 데이터로 복사해 내용을 효과적으로 인식하고 그 안에 유해한 정보가 들어 있는지, 아니면 그것이 그저 재미있는 농담인지 구분한다.

페이스북에는 적개심이나 증오심 표현처럼 이 회사의 정책을 위반하는 콘텐츠들이 매일 다수 업로드 되지만 플랫폼에서 공유되는 정보의 양이 지나치게 많다 보니 유해한 콘텐츠가 눈에 띄지 않는다. 그래서 사람이 하기 힘든 일을 로제타가 대신 하는 것이다. 로제타가 유해한 콘텐츠를 밝혀내면 이것은 커뮤니티 사용자들에게도 큰 도움이 된다. 사용자들 또한 플랫폼을 이용하면서 유해한 정보에 노출될지 모른다는 불안을 느끼기 때문이다. 로제타는 심지어 영어가 아닌 다른 언어로 쓰인 콘텐츠도 인식할 수 있다.

로제타가 수집한 데이터는 다른 용도로도 사용된다. 예를 들어 이미지에서 추출한 텍스트는 사진 검색과 관련된 머신러닝 모델의 품질을 향상시킨다.

▲새로운 AI는 페이스북이 시각적인 콘텐츠를 더욱 잘 분류할 수 있도록 만든다(출처=셔터스톡)

페이스북은 로제타를 사용해 사용자가 자신의 뉴스 피드에서 가장 보고 싶어하는 것을 파악하거나, 더 개인화 된 콘텐츠를 표면화하기 위해 뉴스 피드에서 사진 분류의 정확성을 향상시킬 수 있다.

이들이 이미지에 나타나는 텍스트를 이해하는 것이 관련 사진 검색이나 시각 장애인이 페이스북을 더 쉽게 활용할 수 있도록 돕는 데 매우 중요한 역할을 한다. 따라서 이미지로 만들어진 유해 콘텐츠를 사전에 식별하면 커뮤니티를 안전하게 유지할 수 있다.

로제타의 미래

페이스북 관계자는 "로제타가 앞으로 더 많은 언어를 지원해 급성장하는 비디오 콘텐츠 시장에서 다양한 텍스트를 추출해야 한다"며 "최첨단 컴퓨터 비전 연구 및 응용 프로그램에 도입돼 발전 속도를 올려야 한다"고 말했다.

페이스북은 이미지와 비디오의 텍스트를 감지하고 인식하는 로제타 능력 발전에 박차를 가하고 있다.

페이스북 전문가들은 "이미지 기반 텍스트 추출 기술을 모든 단일 비디오 프레임에 적용하는 소극적인 접근 방식은 플랫폼에서 비디오 분야의 엄청난 성장을 따라잡을 수 없다. 이것은 리소스의 낭비로 이어진다"고 말했다.

현재 사용 가능한 솔루션은 3D 컨볼루션을 사용하는 방법인데, 이 방법의 장점은 공간적 영역과 시간적 영역을 모두 모델링하는 것이다.

페이스북 전문가들은 "우리는 텍스트 추출을 위해 비디오 프레임을 보다 똑똑하게 선택하는 솔루션으로 3D 컨볼루션을 적용하는 방법을 모색하기 시작했다"고 밝혔다.

이들은 앞으로 다양한 언어로 된 텍스트를 인식하는 시스템 기능을 향상시킬 전망이다.

연구진은 "문학에서 연구된 텍스트 인식 모델은 주로 영어나 라틴 알파벳 데이터 세트에 중점을 둔다"며 "앞으로 전 세계 플랫폼을 지원하기 위해서는 페이스북에 사용되는 모든 다양한 언어를 인식할 수 있어야 한다"고 설명했다.

그러나 통일된 모델을 사용해 여러 언어를 인식하는 데는 단점이 있다. 언어의 난이도에 따라 유해한 콘텐츠를 인식하기 어려울지도 모르기 때문이다.

또한 많은 언어에 대한 사람의 주석 데이터를 얻는 것도 어렵다. 극소수의 사람들이 사용하는 소수 언어는 상대적으로 예시가 많지 않기 때문이다. 따라서 페이스북 연구진들은 합성 엔진과 현실의 이미지 배포 사이에서 도메인 격차를 해소할 수 있어야 한다.