[편집자 주] [김동원의 Eye-T]는 IT 소식을 직접 눈(Eye)으로 보는 것처럼 생생하게 전달하는 것을 목적으로 합니다. 다양하고 재미있는 IT 기술과 솔루션을 쉽고 자세하게 보여드리겠습니다.
인공지능(AI)은 늘 달고 다니는 꼬리표가 있습니다. 편향성 문제인데요. 보통 사람들은 AI가 인간보다 객관적이고 공정할 것으로 생각을 하지만, 이는 반은 맞고 반은 틀린 얘기입니다.
AI는 사람처럼 컨디션과 체력, 전문화된 지식에 영향을 받지 않고 결정을 내리기 때문에 공정하다고 할 수 있습니다. 하지만 AI가 내린 결론이 다 공정하진 않지요. 사람들의 데이터로 학습됐고, 사람이 설계했기 때문에 편향성이 나타날 수밖에 없습니다.
쉽게 말해 사람의 손에서, 그동안 사람들의 경험이 담긴 데이터로 탄생한 AI가 사람보다 공정할 순 없다는 겁니다. 하지만 AI는 이 편향성 문제를 극복해야 합니다. 이 문제를 극복하지 못한다면 아무리 좋은 논문이 나오고 연구가 되더라도 사람들의 실제 삶에 적용하기 어려울 테니까요.
그렇다면 AI는 지금 편향성 문제를 극복하기 위해 어떤 노력을 하고 있을까요? 이번 [김동원의 Eye-T]에서는 AI가 편향성 문제를 극복하는 방법에 대해 알아보겠습니다.
AI 공정하지 않다. 그 근거는?
AI가 편향적인 결과를 내놓은 사례는 많습니다. 이제 많이 친숙해진 얼굴인식 사례부터 소개해드리겠습니다. MIT 미디어랩이 밝혀낸 건데요. 2018년 MIT 미디어랩은 '젠더 셰이즈(Gender Shades)' 프로젝트를 통해 얼굴인식 기술이 가진 편향성 문제를 세상에 알렸습니다.
마이크로소프트(MS), IBM, 메그비(Megvii)의 얼굴인식 기술을 분석한 결과 백인의 경우 얼굴인식을 정확히 했고 흑인은 정확도가 떨어졌죠. 흑인이면서 여자인 경우에는 그 정확도가 더 떨어졌어요. 약 35%의 얼굴인식 오류가 발생했죠.
사례는 또 있어요. 미국 표준기술연구소(NIST)는 2019년 189개의 얼굴인식 알고리즘에 대한 성능 평가를 진행했어요. 그 결과 아시아인이나 흑인의 경우 백인보다 얼굴인식이 최대 100배까지 잘못 인식된다는 것을 밝혀냈지요.
AI가 인종과 성별에 따라 얼굴인식 성능을 다르게 보인 것은 학습한 데이터의 차이 때문이에요. 학습 과정에서 다양한 인종의 얼굴 이미지와 성별 이미지를 담고 있지 못한 것이죠. 백인 남성 위주로 학습을 시켰으니 아시아인이나 흑인 얼굴은 인식하기 어려웠겠죠.
언어모델을 토대로 서류를 검토하는 AI 모델도 마찬가지예요. 아마존은 이력서를 AI가 평가하는 알고리즘을 개발하다 중단한 사례가 있어요. 알고리즘이 이력서에 '여학교' 등 여성을 상징하는 단어가 있으면 부정적으로 평가했기 때문이죠. 그 이유는 데이터 학습에 있었어요. 기존 지원자들의 이력서를 바탕으로 알고리즘을 학습했는데 IT 직군 종사자 중 여성 지원자가 적어 이를 감점 요소로 본 것이죠.
언어모델을 토대로 하는 챗봇도 비슷한 사례가 있는데요. MS는 2016년 트위터에 '테이(Tay)'라는 AI 챗봇을 소개했지만, 16시간 만에 서비스를 중단했어요. 테이가 사람들과 트윗을 주고받는 과정에서 "정말 페미니스트가 싫다", "나는 유대인을 증오한다"는 등의 인종차별적이고 성차별적인 글을 남겼기 때문이죠.
'초거대 AI'도 편향적이긴 마찬가지
그러면 최신 기술로 꼽히는 초거대 AI는 다를까요? 초거대 AI는 쉽게 말해 기존 AI 모델을 엄청 크게 늘렸다고 보면 돼요. 모델이 커지니 다양한 언어를 이해하게 됐고 이미지도 이해하게 되면서 많은 일이 가능하게 된 것이죠. 물론 그만큼의 컴퓨터 자원과 막대한 양의 전력, 그리고 보통의 기업에선 꿈도 꿀 수 없는 비용이 들어가지만요.
초거대 AI는 모델이 크니 정말 많은 데이터가 사용돼요. 그러면 그렇게 생각할 수 있어요. 더 많은 사람의 데이터가 모이니 편향성에서 벗어나 더 객관적인 결론이 가능해질 것이라고요. 우리가 면접을 볼 때 면접관이 여러 명인 이유는 한 사람일 때보다 여러 사람일 때가 덜 편향적이기 때문이죠. 이처럼 더 많은 데이터가 모이면 덜 편향적인 결과가 나오지 않을까 기대할 수 있는 것이죠.
하지만 이러한 이론도 집단 편향성 문제와 부딪히면 얘기가 달라져요. 제가 학생이던 시절에는 광우병으로 미국산 소고기 수입에 대한 반대가 심했어요. 그런데 같은 반에 미국에 살다 온 친구가 있었어요. 그 친구가 "난 미국에서 소고기 먹었는데 아무런 이상도 없고 맛만 좋았는데?"라고 친구들한테 얘기했죠. 그런데 무슨 일이 일어났는지 아세요? 반 친구들이 모두 그 친구를 이상한 눈빛으로 보기 시작한 거예요. 그 친구는 이 말 한마디로 광우병 의심 환자가 돼버렸죠.
왜 이러한 일이 발생했을까요? 이미 친구들 사이에서는 미국산 소고기는 나쁘다는 편향성이 단체로 형성됐기 때문이죠. 이처럼 초거대 AI는 여러 데이터를 모았기 때문에 편향성 문제에 벗어날 수도 있지만, 반대로 편향성 문제가 더 강화될 수도 있답니다.
실제로 인텔, MIT, 캐나다고등연구소(CIFAR)가 연구한 논문을 보면 오픈AI의 GPT-3, 구글의 버트(BERT) 등의 초거대 언어모델에서 편향성 문제가 나타났다고 해요. 오픈AI도 GPT-3에서 여성을 나타내는 용어에서 '망할', '못된' 등의 부정적인 용어가, 이슬람은 '테러리즘'과 같은 단어가 나올 확률이 높다고 인정했죠.
멀티모달 AI도 마찬가지예요. 대표적인 모델이 오픈 AI가 최근 공개한 '달리(DALL-E) 2'인데요. 이 모델은 언어를 입력하면 그 언어를 이미지로 만들어주는 AI에요. 예를 들어 '나는 행복해'라는 언어를 입력하면 행복한 것과 연관된 이미지를 만들어주죠.
이 AI 모델에서도 편향성 문제가 나타나요. 승무원을 그려달라고 하면 여자 승무원을 주로 그리고요. 무슬림을 폭력이나 테러리즘과 연관해 그림을 그리지요. 이는 '승무원은 여자', '무슬림은 테러리즘'이라는 편향성을 AI가 갖고 있기 때문입니다.
AI 편향성 문제는 '뫼비우스의 띠'
이러한 편향성 문제는 과연 극복할 수 있을까요? 사실 이 편향성 문제는 근본적으로 뿌리 뽑긴 어렵다고 평가돼요. AI는 결국 사람 손에 태어나요. 사람이 알고리즘을 설계하죠. 이 설계하는 동안 그 사람의 편향성이 영향을 줄 수 있어요.
무엇보다 데이터의 문제가 가장 큰데요. 데이터는 사람의 과거 데이터에요. 사람들은 누구나 편향성을 갖고 있어요. 그래서 어떤 데이터를 학습시키든 편향성 문제에 부딪힐 수밖에 없지요.
편향적이지 않은 데이터만 골라 학습시키는 것도 불가능해요. 딥러닝이라는 게 쉽게 말하면 AI가 스스로 학습하는 것이잖아요. 아이가 스스로 사회성도 배우고 생존력을 배우는 것처럼요.
정상적인 부모는 아이가 태어나면 좋은 것만 보여주고 가르치려 해요. 하지만 그 아이는 어느 날 욕을 하기도 하고 폭력을 행사하기도 하죠. 좋은 것만 가르쳤는데 왜 그럴까요? 미디어에서 욕을 하는 장면을 보았거나 부부 싸움에서 들리는 욕을 들었거나 친구들과 어울리면서 욕을 배웠기 때문이겠죠. AI도 마찬가지예요. 아무리 좋은 것만 가르치려 해도 딥러닝 과정에서 편향적인 데이터를 배울 수밖에 없죠.
그러면 이 아이에게 욕을 하지 말게 하려면 어떻게 해야 할까요? 우선 욕이라는 게 나쁘다는 것을 알려줘야 하고요. 어떤 단어가 욕으로 사용되는지도 알려줘야겠죠? 그리고 그 욕을 사용하면 혼난다는 강제적 조치도 취해야 해요.
기업들이 AI 편향성 문제를 극복하는 것도 이와 비슷합니다. AI가 내린 결론 중 편향적인 것은 무엇인지 기준을 세우고 편향적이지 않게끔 데이터를 다시 정립하고 있죠. AI 모델이 정말 공정한 결론을 내리는지 테스트해 이를 분석하고 이상이 있으면 조치시키는 AI 공정성 진단 검증 도구도 개발되고 있지요. 기술적 문제를 또 다른 기술로 극복해나가고 있는 겁니다.
편향성 문제, 기술로 극복한다
데이터를 다시 정립하는 것은 최근 구글 예시가 가장 바람직할 것 같아요. 최근 구글은 사람의 피부색을 정확하게 나타낼 수 있는 10가지 색조(tone)를 단계별로 구현한 '몽크 스킨 톤(Monk Skin Tone, MST)'을 채택했다고 밝혔어요. 이 색조는 AI 기술에 나타날 수 있는 편견을 줄이는 것을 목적으로 사용하겠다고 했지요.
개발을 주관한 엘리스 몽크(Ellis Monk) 하버드대 교수는 "AI (편향문제)를 개선하려는 것이 MST 척도 설계의 중요한 이유"라며 "가장 일반적인 피부 색조를 나타내는 일련의 색조를 찾는 것 외에도 많은 사람이 MST 척도를 평가하고 수용하기를 바란다"고 말했어요.
[관련기사] 구글, AI 편향 해소하는 10가지 피부 색조 공개
초거대 AI 분야에서도 편향성을 줄이려는 노력이 있는데요. 오픈AI는 달리2에서의 편향성 문제를 줄이기 위해 몇 가지 정책을 규정했습니다. 달리2가 폭력적이거나 포르노, 정치색이 있는 이미지를 생성하지 않게끔 실제 사람의 이미지를 생성하는 것을 못하게 했어요. 이 문제는 딥페이크로 인한 문제도 없앨 수 있죠. 또 편향문제가 나타날 수 있는 이미지나 폭력, 공격적인 이미지들은 훈련 데이터에서 제거했다고 하네요.
하지만 이러한 노력들로 100% 편향성이 없어질 것이라곤 생각되진 않아요. AI는 점점 많은 분야에 사용되고 있고 현재 트렌드를 보았을 때 모델은 계속 커지고 기술은 정교해지고 있죠. 그만큼 해결해야 할 과제가 많아진다는 것을 의미해요. AI가 걷잡을 수 없이 발전하면 그만큼 해결해야 할 과제도 걷잡을 수 없이 많아진다는 거죠. 결국 편향성 문제는 사라지지 않을 것이고 이 문제를 계속 찾아내고 고쳐나가야 할 거예요. AI의 '뫼비우스의 띠'인 셈이죠.
AI 편향성 문제에 최적화된 백신이 있다?!
그래서 주목되는 것이 AI 편향성 검증 도구에요. 이 검증 도구가 무엇이냐면요. AI가 공정한지 진단하고 편향성을 교정하는 진단시스템이라고 보면 돼요. AI 모델을 이 검증 도구로 테스트해서 합격하면 '적어도 이 도구에서 검증한 부분에 한해선 AI 모델은 공정하다'라고 입증할 수 있는 거죠.
바이러스를 검출하는 백신이라고 보면 돼요. 인터넷에서 어떤 파일을 받을 때 이 파일에 바이러스가 있지 않을까 염려되지 않으세요? 그럴 때 우리는 백신 프로그램으로 바이러스 검사를 하죠. 바이러스가 있는지 분석하고 만약 있으면 치료하고요. 사용자는 백신 프로그램으로 파일을 검사하면 '적어도 이 백신 프로그램에서 제공하는 기능 내에서는 문제가 없겠구나' 생각하고 파일을 사용하게 되는 것이죠. AI 편향성 검증 도구도 이와 마찬가지랍니다.
이러한 검증 도구는 빅테크 기업에서 주로 만들었어요. 자신이 출시한 AI 모델이 공정한지 테스트하고 문제가 있으면 고치기 위해서죠. AI가 문제가 되면 기업이 짊어져야 할 책임이 막중하죠. 기업 이미지가 실추되는 것은 말할 것도 없고요. 국내 사례만 보아도 알 수 있죠. 이루다를 개발한 스캐터랩만 하더라도 개인정보보호위원회로부터 총 1억330만원의 과징금과 과태료를 부과받았잖아요.
대표적인 검증 도구로는 IBM의 'AIF360', MS의 'Fairlearn', 구글의 'What ifTool' 등이 있어요. AI 편향성을 측정하는 알고리즘으로 AI 모델의 문제점을 진단하고 교정하는 도구들이지요.
물론 국내 모델도 있답니다. 카이스트 인공지능 공정성 연구센터(센터장 유창동)가 개발한 'MSIT AI FAIR 2022(MAF 2022)'인데요. AI 모델과 학습데이터의 편향성을 분석·탐지·완화·제거하는 프레임워크라고 볼 수 있죠. IBM과 MS, 구글이 내놓은 진단시스템보다 높은 성능을 자랑합니다. 기업이 아닌 연구기관에서 개발했다는 점도 의미가 있습니다.
[관련기사] AI가 공정한지 진단하는 시스템, 국내서 개발...IBM·MS·구글 모델보다 성능 우수
MAF 2022는 과기정통부의 혁신성장동력프로젝트(R&D) 중 하나로 개발됐습니다. 유창동 카이스트 인공지능 공정성 연구센터장은 <AI타임스>와의 인터뷰에서 "MAF 2022는 오픈소스로 공개된 AI 공정성 진단시스템 중 가장 높은 성능을 자랑한다"면서 "이 시스템에서 AI 공정성을 테스트하면 시스템이 제시하는 범위 안에서는 AI가 편향적이지 않고 공정한 결과를 내릴 수 있다고 볼 수 있다"고 말했지요.
그런데 중요한 것이 있어요. 이러한 모델들이 앞으로 꾸준히 업데이트돼야 한다는 것인데요. 위에도 언급했지만 AI 모델은 점점 발전하고 정교해지기 때문에 편향성을 검증하는 도구도 계속 발전해야 하기 때문입니다. 새로운 바이러스가 계속 등장하면서 백신 프로그램이 계속 업데이트되는 것과 비슷하죠. 나중에는 백신 회사가 생긴 것처럼 AI 편향성을 진단하고 교정하는 검증 회사가 생겨날 것으로도 전망됩니다. 지금 당장은 AI 검증 도구에 대한 지원과 관심이 필요하겠죠?
AI타임스 김동원 기자 goodtuna@aitimes.com
