라인(대표 이데자와 다케시)은 음성∙음향∙신호처리 학술대회인 'ICASSP 2023'에 논문 8편이 채택됐다고 14일 밝혔다.
올해로 48회차를 맞이하는 ICASSP는 국제전기전자협회 신호처리학회(IEEE)가 주최하는 음성∙음향∙신호처리 분야 내 세계 최대 규모의 국제학회다.
채택 논문 8편 중 6편은 라인이 주 저자로, 지난해 3편에서 두 배 늘어났다. 2편은 다른 저자와 공동 집필한 논문이다. 모두 학회 개최 기간인 6월4~10일 발표한다.
감정 음성 합성 시 텍스트에서 음성 파형으로 변환하는 과정에 음성 높이(피치)를 이용하는 엔드투엔드 모델에 관한 제안을 소개했다. 기존 모델은 풍부한 표현이 필요한 감정 음성 합성 시 자연스러운 음성 합성이 어려웠으나, 변환 과정을 단일 모델로 수행하는 엔드투엔드 모델은 양질의 음성을 생성할 수 있다는 설명이다.
구체적으로는 감정 음성 합성 시 중요한 피치 정보를 '양(positive)'으로 모델링했다. 이를 통해 정확한 표현이 가능해져, 피치가 극단적으로 높거나 낮은 발화에서도 자연스럽고 안정된 결과를 얻을 수 있었다고 전했다.
또 다수의 화자가 혼재된 음성을 분리하는 음원 분리 시 '확산 모델'을 이용하는 방식을 채택했다. 머신러닝을 이용하는 기존의 음원 분리는 '식별 모델'을 이용, 인간이 듣기에는 부자연스러운 경우가 종종 있었다.
반면 이미지 생성에도 사용하는 확산 모델을 음원 분리에 활용, 자연스러운 음성 생성을 실현했다고 밝혔다. 분리음의 왜곡이 줄어들어 음성 품질 평가 지표에서 기존 방법을 뛰어넘었다는 설명이다.
라인은 인공지능(AI) 활용 서비스 개발은 물론 연구 개발에도 적극 투자하고 있다고 전했다. 특히 음성 처리 분야에서는 학회에서 영향력 있는 연구 성과를 다수 발표했다. 국제 경진대회인 디케이스 2020에서는 환경음 분석으로 세계 1위를 차지하기도 했다.
이데자와 다케시 라인 대표는 "앞으로도 AI 기술 기초 연구를 적극 추진해 기존 서비스의 품질 향상은 물론 새로운 기능 및 서비스 창출에 노력을 기울일 예정"이라고 말했다.
이주영 기자 juyoung09@aitimes.com
