디오비스튜디오, 가상인간·방송 제작 분야 지원
칸타나와 협약해 아세안 주요 기업까지 집중 공략
LG, 딥브레인 AI 등 국내기업 가상인간 기술 한창

인공지능(AI) 가상얼굴 전문 기업 디오비스튜디오가 태국 미디어 그룹 칸타나와 업무 협약을 체결했다. (사진=디오비스튜디오)
인공지능(AI) 가상얼굴 전문 기업 디오비스튜디오가 태국 미디어 그룹 칸타나와 업무 협약을 체결했다. (사진=디오비스튜디오)

국내 인공지능(AI) 가상얼굴 전문 기업 디오비스튜디오가 태국 미디어 그룹 칸타나와 손잡았다고 15일 밝혔다. 디오비스튜디오는 자체 개발한 AI 기술로 가상인간·방송 제작 분야를 지원할 방침이다. 최근 국내 AI 기업이 가상인간 개발에 한창이다. 단순한 그래픽을 넘어서 실재하는 사람처럼 표정을 짓기도 하고 스스로 예술품 창작까지 한다. 실존 인물을 가상인간으로 만들기도 한다. 사진 한 장과 음성 데이터만 있으면 충분하다. 

칸타나는 영화, 드라마, 예능, 광고, 애니메이션, 다큐멘터리 등 다양한 콘텐츠를 제작하고 이스포츠와 교육, 엔터테인먼트까지 영역을 넓힌 대표적인 태국 미디어 그룹이다. 디오비스튜디오는 이번 협약으로 태국뿐 아니라 아세안 주요 기업까지 영역을 확장할 방침이다. 

국내 기업, 가상인간 어디까지 만들었나

AI 아티스트 '틸다'의 뉴욕 패션위크 데뷔를 알린 티저 영상. 이 영상은 공개 1주일 만에 100만뷰를 넘어서며 기대와 궁금증을 불러 일으켰다. (영상=by Tilda 유튜브)

LG가 세계 처음으로 초거대 인공지능(AI) 기반 AI 휴먼 ‘틸다(Tilda)’를 최근 공개했다. 초거대 AI '엑사원(EXAONE, Expert AI for everyone)'으로 구현한 첫 번째 AI 휴먼이다. 틸다는 언어와 이미지를 함께 사용하는 멀티모달 형태인 엑사원을 통해, 입력된 언어의 맥락을 이해해 기존에 없는 이미지도 창작할 수 있다. 최근 박윤희 디자이너(그리디어스 대표)와 옷도 만들었다. 창작물은 미국 뉴욕에서 열린 ‘뉴욕 패션위크'에서 공개됐다.

김현욱 아나운서를 모델로 한 가상인간이 KB국민은행 키오스크에 탑재돼 있다. (사진=김동원 기자)
김현욱 아나운서를 모델로 한 가상인간이 KB국민은행 키오스크에 탑재돼 있다. (사진=김동원 기자)

실존 인물을 가상인간으로 만드는 AI 버추얼 휴먼도 가능하다. 해당 기술은 '딥브레인AI'가 만들었다. 실재하는 사람을 촬영한 후 그 사람의 목소리와 표정, 행동 데이터를 AI로 학습해 가상인간을 만드는 방식이다. 원하는 문구를 시스템에 입력하면 가상인간이 대신 텍스트를 읽어준다. 

딥브레인AI에 따르면 결과물을 만드는데 5분이면 충분하다. 딥브레인 관계자는 "AI 휴먼 영상 합성 플랫폼 'AI 스튜디오스(AI STUDIOS)' 서비스를 활용하면 숙달된 사람의 경우 5분, 빠르면 1분 내에 AI 휴먼 영상을 만들 수 있다"고 말했다. "여기에 보도 관련 이미지, 영상 등을 첨부하면 뉴스 영상 하나가 만들어진다”고 설명했다.

클레온의 '딥휴먼' 기술은 사진 1장과 30초~1분 내외의 음성 데이터만으로 새로운 이미지와 영상을 만들 수 있다. (출처=클레온)
클레온의 '딥휴먼' 기술은 사진 1장과 30초~1분 내외의 음성 데이터만으로 새로운 이미지와 영상을 만들 수 있다. (출처=클레온)

'클레온(Klleon)'은 사진 1장과 음성 데이터 30초 만 있으면 가상인간을 만들 수 있는 딥러닝 기반 '딥휴먼' 기술을 개발했다. 딥휴먼은 AI 딥러닝 기반 영상생성 기술이다. 이미 만들어진 영상에 나온 얼굴을 다른 사람 얼굴과 목소리로 변환할 수 있다. 목소리를 입히면 영상 속 인물이 목소리에 맞춰 입모양을 바꾸는 것이 가능하다. 우리말로 녹음한 목소리를 탑재해도 자체 개발한 음성통역(STS) 기술로 영어, 중국어, 일본어로 변환할 수 있다.

해당 기술은 가상인간 생성에도 활용할 수 있다. 여러 명 사진을 합쳐 새로운 인물을 만들 수 있고, 32가지 파라미터(매개변수)의 조정 장치로 눈이나 코를 특정 인물에 더 가깝게 하는 등 미세한 조정을 할 수 있다.

진승혁 클레온 대표는 작년 <AI타임스>와 진행한 인터뷰에서 "딥페이크 기술로 영상의 얼굴과 목소리를 바꾸려면 기본적으로 사진 10만 장과 40시간 정도의 학습 시간이 필요하지만, 우리는 사진 한 장과 실시간에 가까운 속도로 이를 구현할 수 있다"고 강조했다.

AI타임스 김미정 기자 kimj7521@aitimes.com

[관련 기사]뉴욕 패션위크 뒤집은 LG 신입 디자이너, 알고 보니 AI

[관련 기사][위드AI] ⑮사람인 줄 알았는데 아니라고?...가상인간 "누구냐 넌"

키워드 관련기사
  • KT-픽셀스코프, AI로 스포츠 중계 기술 확장한다...'2022 베이징 동계올림픽'은 어떨까?
  • 'AI가 골라주는 책 읽어볼까'…광주시립도서관, AI 도서 추천 서비스 운영
  • 뉴욕 패션위크 뒤집은 LG 신입 디자이너, 알고 보니 AI