"자연어처리(NLP)에도 버그 있다"...구글ㆍ아마존ㆍMS 클라우드서 발견
상태바
"자연어처리(NLP)에도 버그 있다"...구글ㆍ아마존ㆍMS 클라우드서 발견
  • 입력 2020-07-10 16:24
  • 댓글 0
이 기사를 공유합니다

AI공동연구진, 아마존·구글·MS NLP 버그 찾는 테스트 툴 개발
컴퓨터언어학협회서 ‘체크 리스트’에 최우수 논문상 수상
MS, 텍스트애널리틱스 테스트···자사 NLP평가 워크플로툴로 활용
일단의 인공지능(AI) 연구진이 언어모델 테스트 도구를 만들어 아마존·구글·마이크로소프트(MS)의 상용화된 클라우드 AI 제품에서 주요 버그를 찾아냈다. MS는 ‘체크리스트’ 툴로 자사의 상용 텍스트 애널리틱스 툴을 테스트한 후 이를 자사 NLP평가 워크플로에 넣기로 했다. 사진=MS
MS는 ‘체크리스트’ 툴을 NLP평가 워크플로에 넣기로 했다. (사진=MS)

일단의 인공지능(AI) 연구진이 언어모델 테스트 도구를 만들어 아마존·구글·마이크로소프트(MS)의 상용화된 클라우드 AI 제품에서 주요 버그를 찾아냈다.

벤처비트는 9일(현지시각) 이같은 특징을 갖는 ‘체크리스트(CheckList)툴’을 상세히 기술한 논문이 8일 컴퓨터언어학협회(ACL·Association for Computational Linguistics)컨퍼런스 주최측으로부터 최우수 논문상을 받았다고 보도했다. 이번 주 온라인 상에서 열린 ACL 컨퍼런스는 언어 모델을 만드는 연구자들을 위한 최대 연례 모임 가운데 하나다.

공동 연구 참여자는 마르코 튤리오 리베이로(Marco Tulio Ribeiro), 통슈앙 우(Tongshuang Wu), 칼로스 구에스트린(Carlos Guestrin), 사미어 싱(Sameer Singh)이다.

오늘날 자연어처리(NLP·Natural Language Processing) 모델들은 종종 이들이 성능벤치마크 리더보드 GLUE와 함께 벤치마크 데이터 세트를 사용해 질문에 대답하는 것과 같은 일련의 개별적 과제를 어떻게 수행하는지를 토대로  평가된다.

그러나 체크리스트(CheckList)는 이 방식 대신 과제에 구애받지 않는 접근방식을 취해, 사람들이 시각화 및 기타 리소스와 함께 기능(행)과 테스트 유형(열)을 가진 스프레드시트 같은 매트릭스의 셀을 채우는 테스트툴을  만들 수 있도록 했다.

저자들은 체크리스트로 3사의 자연어처리를 분석한 결과, 텍스트에 임의로 단축된 URL이나 트위터 핸들을 배치하면 아마존 컴프리헨드(Amazon’s Comprehend)에 의한 감성 분석 예측 네개 가운데 한 개가 바뀌고, 텍스트에서 사람이나 장소의 이름이 바뀌면 구글 클라우드 자연어(Google Cloud’s Natural Language)와 ‘아마존 컴프리헨드’가 실수를 저지르는 것으로 나타났다고 밝혔다. 

논문에서는 “모든 상업용 NLP모델에서 부정(否定) 내용이 문장 끝에 올 때(일례로 비행기가 끔찍할 줄 알았는데 그렇지 않았다)나 부정적인 단어와 감정이 들어간 단어 사이에 중립적인 내용이 있을 때 (호불호(好不好)를 가려내는)[감성 분석] 실패율은 거의 100%에 가깝다”고 썼다.

체크리스트는 3사 NLP 분석 결과 쿼라(Quora) 질문 쌍 벤치마크 도전에서 인간의 정확성을 능가했음에도 불구하고 쿼라 질문에 대해 쉽게 답을 설명할 때 발견되는 단점도 설명했다. (쿼라는 사용자 커뮤니티에 의해 질문을 요청하고 질문에 답변하며 수정 및 정리하는 질의 응답 웹사이트다.) 체크리스트를 만든 MS, 워싱턴 대, 어바인 캘리포니아 대 연구원들은 이 접근법을 사용하면 기존의 어떤 NLP 모델도 개선할 수 있다고 말한다.

이 논문은 “기존 벤치마크는 이러한 과제 수행 모델이 인간만큼 정확하다는 것을 나타내지만, 체크리스트는 상업적 NLP모델과 연구용 NLP 모델이 다양한 심각 수준의 버그들로 인해 각 과제에 관련된 부정·명명된 실체·동일지시(2개의 대명사 가운데 동일관계를 언급하는 관계, coreferences), 의미론적 역할 라벨링 등과 같은 기본적 언어 현상을 효과적으로 다루지 못한다는 것을 드러냈다”고 쓰고 있다.

이어 “체크리스트를 사용하는 NLP 실무자들은 두 배 이상의 테스트툴을 만들었고, 테스트툴 없는 사용자보다 거의 세 배나 많은 버그를 발견했다”고 덧붙였다.

구글의 버트(BERT)와 페이스북 AI의 로베르타(RoBERTa: A Robustly Optimized BERT Pretraining Approach)도 체크리스트의 평가를 받았다. 저자들은 버트가 기계 이해에 있어서 성 편견을 보였다며, 압도적으로 남성을 의사로 예측한 것을 그 사례로 꼽았다. 버트는 또한 직선적이거나 아시안에 대해서는 항상 긍정적 예측을 하고, 무신론자·흑인·게이나 레즈비언에 관한 텍스트를 다룰 때에는 항상 부정적 예측을 하는 것으로 밝혀졌다. 2020년 초의 분석에서도 대규모 언어 모델들 사이에서 체계적 편향성이 발견됐다.

최근 인공지능(AI) 자연어처리(NLP)에서 가장 화제가 되고 있는 플랫폼으로 구글의 양방향 언어모델인 ‘버트(BERT)’, 오픈AI의 언어모델인 ‘GPT-3’, 기계신경망 트랜스포머(Transformer) 모델 등이 꼽힌다.

최근 몇 달 동안 ‘트랜스포머(번역기) 기반(Transformer-based)의 가장 큰 언어 모델들이 생겨났는데 엔비디아의 메가트론(Megatron)와 MS의 튜링 NLG(Turing NLG) 등이 그것이다.

대규모 언어 모델들은 특정 과제 수행시 인상적 점수를 얻었다. 그러나 일부 NLP 연구자들은 개별과제 평가시 사람 수준의 성과에 초점을 맞추는 것은 NLP 시스템이 여전히 취약한 방식을 무시하는 것이라고 주장한다.

체크리스트는 여러 평가를 거친 상업용 텍스트애널리틱스(Text Analytics)를 담당하는 MS 팀과 사용 사례를 테스트하는 과정에서 이전에 알려지지 않은 버그를 발견했다. MS 팀은 이제 NLP 시스템을 평가할 때 워크플로의 일부로 체크리스트를 사용한다. 

 

[관련기사] 구글, NLP로 쿼리에 답하는 '데이터 QnA' 선보여

[관련기사] 고전 텍스트 게임으로 간 인공지능...강화학습과 NLP로 병목현상 풀어

기자 프로필


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
유용한 리스티클
  • 지금 사면 좋은 AI 주식 3가지
  • 영국의 5대 AI 기업
  • 개발자가 가장 많이 사용하는 오픈소스는 '제이쿼리'
  • [DNA 우수기업] 〈2〉알서포트...원격지원 SW로 비대면 업무 보조
  • 네이버는 줄이고, 카카오는 늘리고...양사 계열사 현황
  • AI 접목 패션업계, 사용자 수 증가 효과