아마존의 기존 AI 기반 채용 프로그램이 지난 10년간 아마존에 제출된 이력서의 패턴을 학습, 이 과정에서 여성 지원자보다 남성 지원자를 선호해 여자가 포함된 이력서가 불이익을 받기도 했다.
이 같은 문제 해결을 위한 방법으로 입력 값에 성별에 대한 정보값을 제거했으나, 자기소개서 등 지원자가 작성한 문서의 문체에 따라 성별을 암묵적으로 구분하는 현상이 발생해 여전이 편향이 존재함이 드러났다.
따라서 아마존은 그동안 여성 지원자에게 불공정하게 적용됐던
기존 채용 AI 알고리즘을 폐기했다.
'AI 공정성'은 자동화된 의사결정 프로그램의 편향적 결과를 보여주는 사례가 날로 늘어나면서 부각된 이슈다. 위와 같이 아마존의 AI 기반 채용 프로그램에서도 여성보다 남성을 선호하는 성별에 대한 편향이 관측된 바 있다.
또한 미국 탐사보도 전문매체 프로퍼블리카(ProPublica)도 2016년에 미 사법부가 사용하는 위험평가 소프트웨어가 흑인 공동체에 대해 편향된 예측 값을 도출한다는 내용의 기사를 발표한 바 있다. 과거 유죄 판결을 받은 사람들의 재범 가능성을 추정할 때 COMPAS라는 알고리즘을 사용했는데, 흑인이 백인보다 높은 위험도 판정을 받을 가능성이 두 배 가까이 된다는 것이다.
이에 안면인식‧음성인식 등 AI 알고리즘에서 나타난 인종‧성별‧출신에 따른 성능의 차이를 줄이는 기술이 개발되고 있으며, 채용과 신용평가, 의료서비스 등에서도 성능의 편향성을 줄여야 한다는 목소리가 높아지고 있다.
AI의 공정성은 알고리즘의 공정성과도 일맥상통한다.
특히 AI는 의사결정의 과정이 전통적인 알고리즘보다 더 불투명해, 공정한 AI는 설명 가능한 AI 등과도 밀접한 관련이 있다.
공정성이란 개념은 영역에 따라 다를 수 있어 영역마다 공정성의 개념을 확립해 이에 맞는 수학적인 판단기준(척도‧지표)을 개발해야 한다.
공정한 AI 연구 주제는 최근 3년간 주목받은 내용으로 주로 글로벌 IT 기업(IBM, Google, Facebook)을 중심으로 공정한 AI 개발이 이뤄지고 있다. 주요 연구 주제로는 공정성을 측정하는 척도 설계와 분류 문제에서의 공정성 기준 마련 등이 있다.
한편, 공정한 AI 알고리즘 개발 시 대부분 공정성이 AI 성능과 역방향으로 설정돼 있어 공정성 예측 성능을 저해하는 경우가 많다는 게 현실이다.
◆ 기술 동향
IBM은 ‘AI 페어니스 360(AI Fairness 360)’이라는 오픈소스 소프트웨어를 개발했다. AI 알고리즘의 공정성을 측정하고 편향성을 완화하기 위해 70개 이상의 공정성 지표와 10개의 편향 완화 알고리즘을 제공했다.
편향 완화 알고리즘에는 학습 단계 이전에 학습 데이터에 편향을 방지하는 주요 정보를 삽입하는 방법과 학습 과정에 편향을 방지하는 방법, 학습 결과를 바탕으로 편향을 감지하고 완화하는 방법 등이 있다.
구글은 ‘ML 페어니스 짐(ML Fairness Gym)’을 개발해 기계학습(ML) 기반 의사결정 시스템의 시뮬레이션을 구축, 장기적으로 공정성에 대한 이해를 높이는 데 기여했다. 해당 시스템은 순차적 의사결정이 이루어지면서 나타나는 결과를 기록‧평가해 이를 통해 데이터셋의 불완전성이나 내재된 편견을 반영한다.
또 구글은 ‘공정성 지표(Fairness Indicator)’를 개발해 각종 공정성 관련 지표를 계산‧시각화해 WIT(What-If Tool)와 연계함으로써 성능 비교와 공정성 지표 계산 및 시각화를 보다 편리하게 적용했다. WIT와의 연계를 통해 단순히 그래프상의 바를 클릭하는 것만으로 분석‧비교를 쉽게 할 수 있도록 데이터의 세부 정보들을 볼 수 있게 했다. 이는 특히 데이터셋이 대량으로 사용될 경우 매우 효과적이다.
AI가 채용이나 대출 승인 등의 분야에 사용되면서 AI 공정성 확보의 필요성이 더욱 커지고 있다. 이에 AI의 공정성을 높이기 위한 불평등 효과 제거 기술(Disparate Impact Remover)이 제안됐다.
이 기술은 값들을 추가해주는 전처리 기술로 그룹 간 공정성을 높이기 위해 피쳐로 사용될 데이터를 처리한다.
그룹 간의 공정성을 높이기 위해 각 그룹의 구성원을 최대한 구별하기 어렵도록 리페어 레벨(repair_level) 값을 지정해 편향을 제거, 다른 그룹을 합치더라도 각 그룹 내의 순위를 보존해 A집단에서 높은 점수를 받은 경우 A와 B를 합친 새로운 집단에서도 높은 점수를 받도록 한다.
아일랜드 수산 리비(Susan Leavy) 박사는 지난 2018년 언어에 포함되는 성차별에 대한 연구로 성차별적인 비유 표현과 텍스트 속에서 여성이 등장하는 빈도 등 고려해 성차별을 식별하는 것을 제안하기도 했다.
◆ 시장 동향
구글‧페이스북‧마이크로소프트(MS) 등 미국 IT 대기업들은 AI 공정성 연구와 툴 개발에 박차를 가하고 있다. 구글의 페어니스 짐(Fairness-Gym), 페이스북의 페어니스 플로우(Fariness Flow), MS의 페어런(Fairlearn) 등 데이터 내 편향으로 인해 공정하지 못한 결과가 나오는 현상을 쉽게 인지할 수 있는 다양한 툴이 배포됐다. 또 아마존은 NSF와의 공동 연구를 통해 AI 공정성 연구를 주도적으로 수행하고 있다.
IBM은 데이터셋과 ML 모델 등의 편향성을 줄이기 위한 오픈소스 소프트웨어인 'AI 페어니스 360(AIF360)'를 개발했다. AIF360 파이썬 패키지에는 9개 알고리즘이 있고 개인 신용 평가, 의료비 예측, 성별 얼굴 이미지 분류 등 3가지의 튜토리얼을 제공한다. 이는 편향을 줄이는 데 초점을 맞췄다는 점에서 기존의 AI 소프트웨어와는 다르다고 할 수 있다.
페이스북은 ML 알고리즘의 편향성을 알려주는 툴인 '페어니스 플로우(Fariness Flow)'를 개발했다. 이는 알고리즘으로 결론을 내야하는 플랫폼에 큰 도움을 줄 전망이다. 해당 툴은 페이스북의 채용 알고리즘에서 처음 테스트된 바 있다.
또 구글은 ML 기반 결정 시스템을 위한 가상 시뮬레이션 환경인 '페어니스 짐(Fairness-gym)'을 공개했다. 구글 측은 "이를 활용하면 시스템 내부에 설계된 다양한 시뮬레이션 시나리오를 바탕으로 장기적으로 공정함을 제공할 수 있다"고 설명했다.
필자는 공정한 AI로 가는 방법을 크게 두 가지로 정리했다.
평등한 식별을 하지 않도록 정확한 기준을 세부적으로 입력, 이를 기술적으로 적용해 예리하게 수정한다. 이는 학습 단계 이전 또는 학습 과정 중 이를 적용해 편향을 방지하는 방법이다.
또는 AI의 예리한 판단력을 흐리게 해 불평등한 식별 자체를 구분하지 못하게 도출된 학습 결과를 완화 처리한다.
"인공지능과 자연지능 연계 집중할 때" AI 기술청사진 연구 총괄 IITP 박상욱 팀장
[특별기획] 인공지능 기술 청사진 2030 연재순서 표
AI타임스 윤영주ㆍ이하나 기자 yyj0511@aitimes.com
