(사진=셔터스톡)
(사진=셔터스톡)

흑인 여성을 고릴라로 인식한 구글부터 남성에게 같은 조건을 가진 여성보다 신용카드 한도액을 10배로 허용한 애플카드까지. AI, 특히 얼굴인식 시스템에 대한 각종 차별 논란이 끊이지 않는 가운데 이를 보완할 해결책이 등장했다. 편향된 AI 시스템의 주요 원인으로 꼽히는 데이터셋의 편향성을 낮추는 도구가 개발됐다.

미  인공지능 전문매체 유나이트 AI가 4일 보도한 바에 따르면 안젤리나 왕, 알비드 나라야난, 올가 루사코브스키 프린스턴 대학 연구팀은 지난 8월 안면인식 AI 시스템 트레이닝에 사용하는 데이터의 편향을 감지·완화하는 도구 리바이스(REVISE, REvealing VIsual biaSEs)를 개발, 해당 성과를 담은 논문을 발표했다.

리바이스는 컴퓨터 비전 모델 훈련 전 이미지 데이터셋의 편향성을 감지하고 완화해 차별하는 AI 출현을 사전 방지한다. AI가 성차별·인종차별적 결과를 보이는 가장 큰 이유는 무작위로 수집한 온라인 상 이미지를 학습 데이터로 사용하기 때문이라고 알려진 바 있다. 머신러닝 모델들은 데이터 속 편향을 반영하고 심화시키는데, 모델이 결과물을 내놓기 전까지 편향된 내용은 명백히 드러나지 않는 경우가 많다.

리바이스는 통계적 방법을 통해 대상, 젠더, 지리 3가지로 나눠 편향을 감지하고 해결 방안을 제시한다.

대상 기반 편향(Object-based bias)은 이미지 대상의 중요도, 크기, 의미, 맥락에 관한 편향을 뜻한다. 예를 들어 가전기구라는 카테고리 내 이미지 중 오븐, 냉장고는 현저하게 많고 토스터기는 적은 경우 대상 중요도 편향에 해당된다. 이와 같은 경우 리바이스는 토스터기 이미지를 늘릴 것을 추천한다.

대부분 이미지 내에서 크게 묘사되는 비행기는 크기 편향의 대표적 예시다. 이와 같은 경우 연과 함께 있는 비행기 사진 등 비행기가 작게 표현된 이미지를 데이터셋에 추가하면 편향을 줄일 수 있다.

맥락 편향은 사람과 음식을 포함한 이미지 중에 건강식품보다 케이크, 핫도그와 같은 패스트푸드가 많은 경우가 예시다. 이 때 리바이스는 오렌지, 브로콜리, 사과 등 건강식품과 함께 있는 사람 이미지를 추가할 것을 제안한다.

젠더 기반 편향은 이미지 데이터셋 내 젠더고정관념을 뜻한다. 데이터셋 이미지 중 야외 배경, 스포츠 관련 이미지에는 남성이, 실내와 주방 배경 이미지에는 여성이 주로 등장하는 경우다. 남자가 운동복을 입었을 때는 야외 운동, 여자의 경우 실내운동을 하거나 수영복을 입은 이미지가 대다수인 것도 같은 예시다.

특히 연구팀은 데이터셋 이미지가 대부분 미국이나 유럽 국가에서 수집되는 지리 편향을 강조했다. 특히 아시아, 아프리카 국가가 출처인 이미지는 데이터셋에서 비중도 크게 적을 뿐더러 현지 언어가 아닌 외국어로 캡션이 달린 것으로 조사됐다. 이미지의 관점이 현지인이 아닌 관광객과 같은 외국인이기 때문에 진정한 로컬 이미지라고 할 수 없다.

안젤리나 왕 리바이스 개발자는 “컴퓨터과학 분야에서 데이터 셋 수집 행위에 대한 조사는 최근까지 자세히 이뤄지지 않았다”면서 “우리는 더욱 다양한 그룹의 사람들에게서 이미지를 수집해야 한다”고 강조했다.

리바이스가 구별한 편향된 이미지에 삭제와 같은 최종 조치를 취하는 일은 문화적, 역사적 맥락을 고려해 인간이 결정한다. 자동 시스템인 리바이스의 역할은 인간을 보조하는 것에 그친다.

또다른 리바이스 개발자인 루사코브스키는 “리바이스가 이미지 차별성, 편향성을 인식한 이후 완전히 유해한 사실인지 혹은 더 깊은 무언가가 내포돼 있는지 판단해야 한다. (리바이스가) 자동으로 처리하기는 매우 어려운 일”이라고 말했다.

리바이스는 오픈소스 형태로 공개돼(https://github.com/princetonvisualai/revise-tool), 누구나 이용할 수 있다.

 

[관련기사] 트위터, 이미지 크롭 알고리즘 인종 편향성 논란 사과

[관련기사] “김치녀‧된장녀”…여혐 표현 AI로 걸러낸다

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지