(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI)이 생성하는 콘텐츠가 많아지면서 이를 가려내기 위한 도구 개발이 이어지고 있다. 이같은 도구는 특히 교육현장에서 수요가 커지고 있다. 

그런데 이들 도구 가운데 비영어권 출신이 쓴 글을 AI가 생성한 것으로 잘못 판정하는 편향성을 지닌 도구가 많다는 연구결과가 나와 충격이다. 또다른 유형의 인종차별이라는 논란이 일 전망이다.

가디언은 10일(현지시간) 스탠포드대학교 연구진이 영어를 모국어로 쓰지 않는 사람이 작성한 영어 에세이를 AI 텍스트 탐지기로 시험한 결과 이런 경향을 확인해 데이터과학 저널인 ‘패턴’에 관련 논문을 게재했다고 보도했다. 

제임스 주 데이터과학과 교수가 이끈 연구팀은 ‘GPT 탐지기’로 알려진 AI 텍스트 탐지도구 7개를 비영어권 출신인 사람이 쓴 에세이 91개와 미국 원어민 학생들이 쓴 에세이 88개에 적용해 비교했다. 

탐지 도구들은 비원어민들이 영어능력시험인 토플을 위해 작성한 에세이의 절반 이상을 AI 생성글로 표시했고,  도구 중 하나는 98%를 AI가 쓴 글로 판정했다. 반면 미국의 원어민 8학년 학생들이 작성한 에세이는 90% 이상을 인간이 쓴 것으로 분류했다.

연구진은 이와 관련해 텍스트의 ‘당혹도(degree of perplexity)’에 주목했다. 이는 AI 언어모델이 다음에 올 단어를 추측할 때 ‘얼마나 혼란스러워 하는지’를 나타내는 기술적 개념이다. 

(사진=셔터스톡)
(사진=셔터스톡)

언어모델은 한 단어 다음에 올 단어를 확률적으로 추측해 문장을 만든다. 이 때 쉽게 추측할 수 있으면 당혹도는 낮아진다. AI 텍스트 탐지기들은 거꾸로 이를 이용해 문장내 단어의 당혹도가 낮으면 AI 생성 텍스트로 판단한다. 

연구진은 실험에 활용한 비원어민의 에세이들이 '당혹도'가 낮았다고 밝혔다. 이에 따라 탐지도구들이 원어민보다는 제한된 범위에서 언어 표현을 할 수 밖에 없는 비원어민에게 불이익을 줄 수 있다고 지적했다.

학생들이 제출하는 에세이나 구직자의 입사 지원서, 학자들의 논문을 AI 생성물로 잘못 판정한다면 심각한 영향을 끼칠 수 있다고 연구진은 강조했다. 또 AI 텍스트 탐지기들의 성능이 일반의 기대보다 낮다는 것을 확인했다면서 결과 활용에 유의해야 한다고 조언했다.

‘GPT 탐지기’는 교육현장에서 ‘챗GPT’로 작성한 글이 문제가 되면서 이를 가려내기 위’해 개발된 AI 탐지기들을 말한다. 현재 'GPT제로’를 비롯해 카피리크스, 새플링, 에이치에프 스페이스 등이 개발한 도구들이 나와 있다. 연구진은 그러나 실험에 이용한 제품들의 명칭은 공개하지 않았다.

정병일 기자 jbi@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지