감성 및 발화 스타일 고려 음성합성 AI 모델 개발

(사진=커뮤니케이션북스)
(사진=커뮤니케이션북스)

오디오북과 미디어 전문 출판사 커뮤니케이션북스(대표 박영률)가 '감성 및 발화스타일 동시 고려 음성데이터를 활용한 음성합성기 개발 해커톤 경진대회'를 개최한다고 1일 밝혔다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주최하고 커뮤니케이션북스가 주관하는 이번 경진대회는 인공지능(AI) 학습 데이터의 효용성 확인과 참가자들의 AI 알고리즘 개발 역량 향상이 목적이다.

음성합성 AI에 관심있는 개인 혹은 2~5인 팀으로 참가 가능하다. 접수는 14일까지, 구현 및 제출은 15일부터 다음달 12일까지다. 수상자에게는 총 600만원의 상금이 주어진다.

커뮤니케이션북스는 이번 대회에 자체 제작한 약 150시간 분량의 음성 데이터를 제공한다. 음성 데이터는 4개 감정(기쁨, 슬픔, 분노, 무감정) 및 7개 발화 스타일(친절체, 애니체, 중계체, 독백체, 대화체, 구연체, 낭독체)을 라벨링한 데이터 중 일부다.

지금까지 음성합성을 위한 데이터는 낭독체가 중심이었으나, 커뮤니케이션북스는 여러 감정 및 발화 스타일을 표현하는 문학 및 창작 대본을 제작하고 전문 성우와 일반 발화자들이 자연스럽게 표현하도록 연출해 데이터를 구축했다.

이번 음성 합성 데이터를 구축하는 사업에는 커뮤니케이션북스, 셀바스 AI, 나라지식정보, 바이칼에이아이 등이 컨소시엄으로 참여했다. 본 대회를 공동으로 진행하는 셀바스 AI는 음성합성(TTS) 기술을 기반으로 학습된 데이터의 품질을 점검하는 스타일 태깅 AI 모델링을 담당하며 응모작의 평가를 맡는다.

임대준 기자 ydj@aitimes.com

키워드 관련기사
  • 엔씨소프트, '인터스피치 2022'서 음성합성 기술 논문 3편 발표
  • 네이버 AI 음성합성 '클로바더빙', 가입자 100만명 돌파
  • 업스테이지, 'AI 추천' 국제대회 12위 입상…1위와 0.016점차