189개 안면인식 소프트웨어 알고리즘 대상
아시아인·아프리카계 미국인 인식률 떨어져
아프리카계 미국인 여성, 오류 비율 높아

(사진=NIST). ©AI타임스
(사진=NIST). ©AI타임스

(AI타임스=윤영주 기자) 미국 상무부 기술관리국 산하의 미국표준기술연구소(NIST)가 안면인식 소프트웨어 알고리즘에 대한 연구조사 결과 대부분 안면인식 정확도에 있어 인종·연령·성별에 따라 편차를 보인다고 밝혔다.

최근 NIST가 발표한 보고서(‘Face Recognition Vendor Test Part 3 : Demographic Effects’)에 따르면 NIST는 총 189개의 안면인식 소프트웨어 알고리즘을 대상으로 인종·연령·성별에 따라 얼마나 정확하게 식별할 수 있을지 조사했다.

이번 연구조사는 NIST의 FRVT(Face Recognition Vendor Test) 프로그램을 기반으로 산업계와 학계 개발자들이 제출한 총 189개의 안면인식 소프트웨어 알고리즘을 대상으로 이뤄졌다.

연구팀은 두 가지 작업에 대한 각 알고리즘의 수행 능력을 평가하기 위해 거짓을 참인 것으로 잘못 판단하는 ‘긍정 오류(false positive)’와 참인 것을 거짓으로 잘못 판단하는 ‘부정 오류(false negative)’로 나눠 소프트웨어의 오류를 평가했다.

긍정 오류는 소프트웨어가 서로 다른 두 인물 사진을 보고 동일한 인물로 잘못 판단한 것이며 부정 오류는 실제 동일 인물인 두 개의 사진을 같은 인물로 식별하지 못한 것을 의미한다.

연구조사 결과 일대일 매칭의 경우 백인에 비해 아시아인과 아프리카계 미국인에 대한 긍정 오류율이 더 높게 나타났다. 알고리즘에 따라 오류 편차는 매우 다양하게 나타났으며 최소 10배에서 최대 100배 차이를 보였다. 그러나 아시아 국가에서 개발된 일부 알고리즘에서는 안면인식 일대일 대조의 긍정 오류율에 있어 아시아인과 백인 간에 큰 차이가 없었다.

특히 일대다 매칭에서는 아프리카계 미국인 여성의 경우 긍정 오류 비율이 높게 나타나 인식률이 크게 떨어졌다. 물론 모든 알고리즘이 다 일대다 매칭 정확도가 떨어지는 것은 아니며 알고리즘마다 각기 다른 성능을 보였다. 또 NIST 보고서에 따르면 긍정 오류 비율은 여성이 남성보다, 노년층과 유년층이 다른 연령층보다 높게 나타났다.

현재 다양한 분야에서 안면인식 시스템이 도입되고 있는 가운데 NIST는 이 같은 안면인식 알고리즘에 대한 연구조사가 향후 안면인식 소프트웨어 성능을 개선하는 데 도움이 될 것으로 기대하고 있다. 이번 보고서의 주요 저자인 패트릭 그로더(Patrick Grother) NIST 컴퓨터 과학자는 “이 편차의 원인에 대한 연구가 이루어지지는 않았으나 이번 연구 결과는 향후 안면인식 알고리즘의 한계와 적절한 활용 방안을 생각하는 데 정책 입안자와 개발자, 사용자에게 유용한 자료가 될 것이다”고 설명했다.

한편, 이번 조사에서는 인텔(Intel), 마이크로소프트(Microsoft), 도시바(Toshiba), 텐센트(Tencent), 디디추싱(Didi Chuxing) 등 여러 기업들의 알고리즘도 포함됐다. 반면 미 경찰에 제공된 것으로 알려진 아마존(Amazon)의 안면인식 소프트웨어 레코그니션(Amazon Rekognition) 알고리즘은 제출되지 않아 제외됐다. NIST 연구팀은 개별 알고리즘 평가를 위해 미 국무부, 미 국토안보부, FBI 등에서 제공된 849만 명의 1,827만 개 사진 데이터베이스를 활용했다.

NIST는 각각의 알고리즘이 안면인식 응용프로그램에서 가장 일반적으로 활용되는 두 가지 업무 기능을 얼마나 잘 수행하는지를 중심으로 평가했다. 첫 번째 업무는 흔히 스마트폰 잠금 해제나 여권 확인 절차에서 사용되는 ‘일대일 대조(one-to-one matching)’ 작업으로 데이터베이스에서 동일한 인물의 다른 두 사진을 두고 같은 인물인지 판별하는 것이다. 또 두 번째 업무는 사진 속 인물이 데이터베이스 안에서 어떤 인물과 일치하는지를 확인하는 ‘일대다 대조(one-to-many matching)’ 작업이다.

데이터베이스의 사진에는 인물의 나이와 성별, 인종 또는 출생국가 등의 메타 데이터 정보가 포함돼 있다. 이에 따라 연구팀은 각 알고리즘의 두 가지 작업 유형에 대한 긍정 오류와 부정 오류를 판단할 뿐 아니라 이 같은 오류의 비율이 인물 그룹별로 얼마나 차이가 나는지를 분석했다.

【에이아이타임스 aitimes 에이아이타임즈】