AI 판단 근거 알아야 문제 해결 가능...보안, 공정성 확보까지 이어져
AI 적용 분야·정도에 따라 다른 수준의 투명성 요구하는 것이 현실적
자연어처리 데이터 성격, 소스에 따라 천차만별...연구 활성화 필요

(사진=셔터스톡)
(사진=셔터스톡)

 'AI챗봇 이루다 사태’와 같은 인공지능(AI) 윤리 문제를 막기 위해서는 AI 판단 근거를 알 수 있는 '설명가능한 AI' 기술이 필수라는 전문가 주장이 나왔다. AI가 윤리에 어긋나는 결과물을 낸 원인을 분명히 알 수 있어야 개선도 가능하다는 의미다.

혐오 발언을 하는 AI를 다시 만들지 않으려면 자연어처리 기술에 사용하는 데이터 원소스에 대한 연구를 본격 활성화해야 한다는 조언이다.

과기정통부가 2일 개최한 '사람 중심의 인공지능을 위한 인공지능 윤리 정책세미나'에는 민·관·학 전문가 12명이 참석해 AI 윤리 문제 해결 방안에 대한 각계 의견을 나눴다.

이날 행사에서 이현규 IITP AI·DATA PM는 AI 윤리 문제 핵심으로 딥러닝의 투명성 결여를 꼽았다. 방대한 데이터를 통해 학습하는 딥러닝은 기술적으로 블랙박스라는 자체적인 한계를 지닌다. AI가 제시한 결과물이 어떻게 도출되었는지 자세한 과정을 알 수 없는 것이다.

이현규 PM은 “설명가능한 AI 기술을 확보하는 것이 AI 윤리 이슈에 있어서도 관건이다. 비윤리적인 AI 결과물이 어떻게 나왔는지 분석할 수 있어야 상황을 제대로 판단하고 개선할 수 있는 것”이라고 설명했다.

이어 “보통 소프트웨어에서 문제가 발생하면 개발자가 디버깅을 할 수 있다. 하지만 딥러닝 기반 시스템에서 문제가 발생하면 개발자조차도 제대로 알 수 없다. 문제를 미리 예측할 수도 없어 발생한 후에야 대처하는 식이다. 흔히 AI라고 하면 사람보다 뛰어난 존재라고 상상하지만 아직 걸음마 단계에서 벗어나지 못한 것”이라고 지적했다.

2일 '사람 중심의 인공지능을 위한 인공지능 윤리 정책세미나'에서 발언 중인 이현규 IITP AI·DATA PM(사진=과기정통부 유튜브 영상 캡처)
2일 '사람 중심의 인공지능을 위한 인공지능 윤리 정책세미나'에서 발언 중인 이현규 IITP AI·DATA PM(사진=과기정통부 유튜브 영상 캡처)

AI 설명가능성, 즉 투명성을 확보한 후에야 보안과 공정성 문제로도 넘어갈 수 있다는 주장이다. 이 PM은 “AI 모델의 보안적 견고함과 안전은 투명성 확보로 인한 부수적인 효과로 얻을 수 있을 것”이라고 강조했다.

반면 AI를 적용하는 모든 분야에서 높은 투명성을 확보할 필요 없다는 의견도 제시됐다. 이수영 카이스트 교수는 “AI 레벨에 따라 다른 투명성 수준이 필요하다”고 말했다.

그는 “모든 사항에 대해 투명하게 공개해라 요구하면 기업 입장에서는 상당히 난처할 것”이라며 “AI 결과물을 어떤 분야에 어느 정도 쓸 건지에 따라 차이를 둬야 한다”고 전했다.
 

◆자연어처리 데이터 특수성 이해해야

AI 챗봇 이루다의 기반 기술인 자연어처리(NLP) 분야에서 윤리 문제는 다른 AI 기술보다 특별히 중요하다. 비교적 비정형적, 비정규적인 자연어 데이터 특성상 AI 학습 데이터 소스에 대한 연구가 활성화돼야 한다는 것이다.

고학수 서울대 법학전문대학원 교수는 “자연어처리 분야 AI 윤리(computational ethics for NLP)라는 과목이 학계에서 따로 개설될 정도다. AI 윤리 관련 논문도 자연어처리 분야에 집중돼서 나오고 있다”고 강조했다.

동시에 “대부분 영어라는 것이 한계”라며 “한글 자연어처리와 관련된 데이터와 윤리 연구는 우리나라에서 해야 하는 과제”라고 말했다.

발언 중인 고학수 서울대 법학전문대학원 교수(사진=과기정통부 유튜브 영상 캡처)
발언 중인 고학수 서울대 법학전문대학원 교수(사진=과기정통부 유튜브 영상 캡처)

고 교수는 현재 자연어 데이터 내용 분석을 주제로 다수 연구를 진행 중이다. ‘임베딩 모델에 내재된 편향의 양상’ 연구에서 특정 단어들에 대해 성별이 어떻게 인식되는지 분석 중이다.

그는 “성별을 기입하지 않아도 이외 항목으로 성별을 추정할 수 있다. 특히 직업군에 대해 성별을 전제하는 사회적 고정관념이 있음을 확인했다. 이러한 연구는 AI 고용에서의 성차별과 같은 문제를 방지하는데 도움이 될 수 있다”고 전했다.

소스와 시대에 따라 자연어 데이터 성격도 크게 바뀐다는 설명이다. 고 교수는 “위키피디아, 나무위키, 트위터 등 어디로 소싱해서 말뭉치를 만드느냐에 따라 다른 결과를 보인다. 시대에 따른 사회적 고정관념에 따라서도 어떻게 바뀌는지 연구가 필요하다”고 말했다.

그는 “결국은 개발자들에게 상당부분 고민이 주어질 것”이라며 “이 부분(자연어 데이터 특성)을 사회 규범에 반영할 것인지에 대해서도 생각해봐야 한다. 결국 해당 분야 작업이 훨씬 많이 이뤄져야 하는 것”이라고 강조했다.

 

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]정부 “올해 AI 윤리 체크리스트 만든다”...제2의 이루다 사건 막을 것

[관련기사]과기정통부, ‘인공지능 윤리 정책세미나’ 2일 개최...AI 챗봇 이루다 논란 의견 수렴

키워드 관련기사
  • [분석] 이루다 사건, 문제는 AI모델과 데이터 정제...GPT-3에서 예견된 사태
  • ‘이루다’와의 못 다 이룬 同行, 인공지능(AI) 윤리와 규범적 대응의 방향은
  • AI챗봇 이루다 사건, 기술보다 사람이 문제..."이루다는 어른아이"