지난 11월 16일부터 20일까지 열린 자연어처리 최고 권위 국제학술대회 EMNLP2020에서 최우수 논문상 영광은 U.C버클리대 무성인식연구에 돌아갔다. U.C버클리대 연구팀은 최초로 무성 언어를 활용해 디지털 목소리를 만들어내는 기술을 제시했다.
우승후보작으로 꼽힌 연구는 U.C버클리대 연구를 포함해 총 5개다. 우승작 이외 시각 데이터 기반으로 구문을 분석하는 복합 PCFGs, 새로운 대화형 다이어로그 시스템 평가툴, 스토리기반 상식추론기술, 빔 검색 활용해 정보 편향 줄인 디코딩 4개 연구도 우승 후보에 올라 주목받았다.
① 최우수 논문 수상작 '음성인식 대신 무성인식 패러다임 제시'
논문명 - 무성언어에 대한 디지털 목소리 생성(Digital Voicing of Silent Speech)
연구팀 - U.C버클리대
U.C버클리대 연구팀은 음성인식·합성 연구에 음성 대신 무성 데이터를 활용, 패러다임 전환을 예고했다. 해당 연구에서는 소리 없이 립싱크로 발음하는 동안 근전도(EMG) 센서로 근육 자극을 포착해 학습 데이터를 수집했다. 기존 연구에서는 주로 언어를 소리내서 말하는 동안 근전도 센서를 적용했다. 이번 연구는 음성연구 훈련에 사용하는 오디오 타겟을 음성에서 무성으로 바꾼 것이다.
오디오 명료성도 기존 음성데이터 훈련법에 비해 크게 향상시켰다. 논문에 따르면 각각의 실험에서 무성 데이터 학습 후 전사 단어 오류율은 64%에서 4%, 88%에서 68% 감소했다. 연구에 사용한 데이터세트는 후속 연구 촉진을 위해 공개했다.
② 우승후보 - 시각 기반 자료를 활용한 문법 학습 개선
논문명 - 시각 기반 복합 PCFGs(Visually Grounded Compound PCFGs)
연구팀 - 애든버러대, 암스테르담대 ILCC(논리, 언어 및 컴퓨팅 연구소)
이 연구에서는 시각 자료를 비라벨링 텍스트와 데이터로 함께 활용해 구성구문분석법에 적용했다. 확률론적, 비맥락적 문법 모델을 사용해 차별화 가능한 엔드 투 엔드, 시간 기반 학습을 선보인 것이다.
구성구문분석(Constituency Parsing)은 문장을 하위 구문 또는 구성 요소로 분리하는 작업이다. 파싱은 토큰 단위로 잘라 의미를 해석한 다음에 의미에 따라 작업을 실행하는 것이다.
연구에서는 라벨링되지 않은 텍스트와 관련 시각 자료를 함께 이용해 구성 파서를 학습하는 문법 유도 연구를 설계했다. 여타 연구에서는 이미지, 텍스트 정렬 데이터를 단순히 활용하는 것에 그쳤다.
연구팀이 도입한 시각 기반 복합 PCFGs는 이미지-텍스트 정렬 손실값을 보충해 기존 연구에서의 오류 변수를 줄였다. 이미지-텍스트 정렬 데이터 활용 모델은 오류가 26.2%에서 79.6%까지 발생해 안정성이 떨어졌다.
논문에서는 MSCOCO 테스트 결과, 비기반(non-grounded) 버전보다 좋은 성과를 냈다고 밝혔다. 이전 기반(grounded) 모델에 비해서는 추상적 대상 카테고리화 능력을 개선한 것으로 전해졌다.
③ 효율적 챗봇 평가를 위한 솔루션
논문명 - 봇을 잡아라: 대화형 다이얼로그 시스템 평가를 위한 강력하고 효율적인 프레임워크(Spot The Bot: A Robust and Efficient Framework for the Evaluation of Conversational Dialogue Systems)
연구팀 - 취리히 응용과학대, 마드리드국립대, 바스크국립대
인간 대신 챗봇의 자연스러운 언어 구사 능력을 평가하는 툴을 제시한 연구도 우승 후보에 올랐다. 스팟 더 봇(Spot The Bot)은 보다 효율적이고 빠른 방식으로 챗봇 평가 업무를 수행해 연구를 돕는다.
기존 챗봇 평가는 인간이 주로 담당하는 만큼 시간·금전적 비용이 많이 든다. 높은 인지 활동을 요구하는 것에 비해 질낮은 결과를 내놓는 경우도 많다. 스팟 더 봇은 챗봇 대화 속 각 집합 요소들을 평가해 인간 대화 행동을 잘 모사하는지 판단한다.
3개 도메인을 기준으로 수행력은 물론이고 유창함, 사리분별력과 같은 성향까지 평가한다. 어느 챗봇이 인간과 비슷한 행동을 가장 오래 유지하는지 측정할 수도 있다. 인간 평가자는 이 자료에 따라 챗봇 랭크를 매기기만 하면 된다. 논문에서 연구팀은 “비교적 적은 비용이 들기에 빈번한 평가가 필요한 챗봇 개발에 중요한 역할을 할 것”이라고 밝혔다.
④ 이야기로 지식과 상식 추론한다
논문명 - 글루코스: 일반화, 맥락화된 이야기 설명(GLUCOSE: GeneraLized and COntextualized Story Explanations)
연구팀 - 엘리멘탈 코그니션(Elemental Cognition)
미국 AI 기업 엘리멘탈 코그니션은 스토리가 있는 데이터에서 지식과 상식을 추론할 수 있는 기술인 글루코스(GLUCOSE)를 개발했다. 연구팀은 인지심리학에서 착안해 일반 상식과 지식, ‘세계에 대한 일상적인 미니 이론들’로 이뤄진 플랫폼을 제시했다.
연구팀은 이벤트, 동기, 감정, 상태 등에 초점을 맞춰서 일상을 설명하는 10개 차원을 정했다. 각 글루코스 엔트리들은 특정 이야기 속 일상적 발언(statement)을 포함하며, 여기서 일반화한 추론 규칙과 쌍을 이룬다.
해당 플랫폼은 대규모 크라우드 소싱 데이터 작업을 목적으로 만들어졌다. 연구에서는 최대 67만개 특정 발언과 일반룰을 수집했다.
일반룰은 일상 속 암시적, 추론적인 상식과 지식을 의미한다. 연구팀은 “이제 본 적 없는 이야기들에서 상식을 추론할 수 있게될 것”이라고 말했다.
⑤ 빔 검색 기법 접목한 디코딩
논문명 - If Beam Search is the Answer, What was the Question?
연구팀 - 취리히연방공대, 존스홉킨스대, 캠브리지대
뉴럴 언어 생성 작업에서 뛰어난 성능을 보이는 빔 검색 기법을 디코딩에 적용한 연구도 최우수 연구 후보로 언급됐다. 연구팀은 이 기술로 텍스트에서 균일한 정보 밀도를 강화하는 성과를 냈다. 또한 잘못 보정된 모델 사용 시 문제를 완화했으며, 뉴럴 기계 번역 시 기존의 성과지표인 BLEU 스코어와 강력한 상관 관계를 보인다는 사실을 밝혀냈다.
빔 검색은 여러 개의 최상 선택을 동시에 탐색하는 휴리스틱 탐색 기법으로 음성인식, 비전, 기계학습에 유용하게 쓰인다. 연구팀은 높은 오류 발생률을 보이지만 뉴럴 언어 생성 작업에서 최고 결과를 내는 빔 검색 기법을 디코딩에 도입했다. 정확히는 빔 검색을 다른 디코딩 목표에 대한 정확한 솔루션으로 프레임화했다.
인지과학에서 모티브를 얻은 연구팀은 빔 검색이 텍스트 속 일정한 정보 밀도를 강화하는 것을 발견했다. 논문에서 연구팀은 “이러한 목표를 사용한 정확한 디코딩이 잘못 보정된 언어 생성 모델을 디코딩 할 때 발생하는 문제를 완화했다”고 말했다.
이어 “다양한 디코딩 전략을 사용해 생성한 텍스트를 분석했고, 뉴럴 기계 번역 실험에서 이 속성이 적용되는 범위가 BLEU 스코어와 강력한 상관 관계가 있음을 확인했다”고 전했다.
