키보드·키패드 없이 문서·콘텐츠 만드는 시대 도래
셀바스AI, AI 기반 음성·문자·필기인식 기술 선도
텍스트 자동 인식해 음성·영상 콘텐츠 자동 생성
음성 파일과 이미지를 텍스트로 만드는 것도 가능

키보드 시대가 지고 있다. 문서를 기록할 때 사용하는 키보드와 키패드 역할이 줄어들고 있다. 굳이 키보드로 텍스트를 기입하지 않아도 음성을 자동으로 텍스트로 작성해주는 기술이 보편화 되고 있기 때문이다. 키보드가 등장했을 때 펜과 연필의 역할이 줄어든 것처럼 키보드도 그 뒤를 따를 것으로 전망된다.

키보드를 대체할 수 있는 새로운 기술은 인식기술이다. 사용자의 음성을 인식하는 음성인식, 텍스트를 인식하는 문자인식, 사람의 글씨와 그림을 인식하는 필기인식 등의 인식기술은 인공지능(AI) 기반으로 계속 발전해나가고 있다.

AI 기반 인식기술의 선두에 선 기업은 셀바스AI다. 과거 갤럭시 노트에 인식기술을 공급한 업체가 바로 이 기업이다. 갤럭시 노트 디스플레이 화면에 S펜으로 그림을 그리거나 글씨를 쓰면 그 결과물에 화면에 그대로 구현될 수 있었던 건 셀바스AI가 공급한 인식기술 때문이었다. 그렇다면 현재 이 기업은 인식기술을 어디까지 진화시켰을까? 13일부터 3일간 서울 코엑스에서 개최 중인 'AI 엑스포 코리아 2022'에서 셀바스AI의 인식기술을 체험해보았다.

텍스트를 음성과 영상으로..."직접 PPT 만들 필요 없다"

셀바스AI는 얼굴인식을 제외한 모든 인식기술을 개발·공급하고 있다. 이번 전시회에서는 AI 음성 콘텐츠 제작 서비스와 AI 기반 음성기록 솔루션, 필기·문자인식 솔루션 등을 공개했다.

AI 음성 콘텐츠 제작 서비스인 '셀비 보이스(Selvy Voice)'는 인식기술이 어디까지 발전했는지를 보여준 대표 사례다. 셀비 보이스는 텍스트 콘텐츠를 음성·영상 콘텐츠로 제작할 수 있는 서비스다. 사용자가 직접 입력하거나 이미 작성해 놓은 글을 웹페이지에 업로드하면 음원 파일을 생성해준다. 텍스트 내용에 따라 신뢰 가는 목소리, 밝은 목소리, 친절한 목소리 등 셀바스AI가 제공하는 목소리를 선택할 수 있다.

이항섭 셀바스AI 사업대표는 전시장에서 <AI타임스>와 만나 직접 제품을 시연했다. 실시간으로 교통정보를 텍스트로 입력하고 목소리를 선택하니 셀비 보이스는 그대로 그 텍스트를 음성으로 변환해 읽어줬다. 아나운서와 같은 목소리부터 편안한 목소리까지 다양한 목소리를 선택하는 것이 가능했다.

셀바스AI의 셀비 보이스는 텍스트 콘텐츠를 업로드하면 자동으로 음성과 영상 파일을 생성한다. (영상=김미정 기자)

셀바스AI는 텍스트를 음성으로 생성하는 것을 넘어 영상까지 만들 수 있는 기술도 선보였다. 입력한 텍스트를 음성으로 생성할 뿐 아니라 내용을 이해해 PPT와 같은 영상으로도 함께 만들어주는 기술이다. 텍스트 정보를 시각화된 내용으로 전달해 이용자의 이해를 도울 뿐 아니라 텍스트를 영상물로 빠르게 만들 수 있다. 이 기술은 텍스트에서 중요한 내용은 굵게 표시하고 관련 내용을 함께 묶어 PPT처럼 보여준다. 발표자료로 제작해야 하는 PPT를 단순히 텍스트만 입력해 만드는 용도로도 사용 가능하다.

셀비 보이스는 입력한 텍스트를 영상 콘텐츠로 생성할 때 텍스트 내용을 이해해 표나 그래프로도 제작할 수 있다. 해당 기술은 올해 하반기 출시될 예정이다. (사진=김미정 기자)
셀비 보이스는 입력한 텍스트를 영상 콘텐츠로 생성할 때 텍스트 내용을 이해해 표나 그래프로도 제작할 수 있다. 해당 기술은 올해 하반기 출시될 예정이다. (사진=김미정 기자)

셀바스AI 관계자는 "최근 영상물을 활용하는 사례가 많아지고 있는데 셀비 보이스는 텍스트를 영상과 음성으로 제작해 콘텐츠 제작자들의 업무를 지원하는 도구로 사용할 수 있다"며 "음성 생성 기술은 현재 상용화했고 영상 생성 기술은 하반기 선보일 계획"이라고 밝혔다.

손 글씨 텍스트도 정확하게 인식, 5억 대 이상 디바이스에 탑재

그렇다면 셀바스AI 솔루션은 어느 텍스트까지 이해할 수 있을까? 이항섭 셀바스AI 사업대표는 "우리는 컴퓨터에서 제공하는 텍스트부터 사람의 손 글씨까지 인식할 수 있는 기술인 '셀비 펜(Selvy Pen)'을 개발했다"며 "손 글씨도 단순 글씨는 물론 수식, 화학식, 제스처, 필순까지 인식할 수 있다"고 말했다.

셀비 펜은 손 글씨를 디지털 텍스트로 변환하는 솔루션이다. 전 세계 50종의 언어를 지원한다. 97% 이상의 높은 인식 성능을 보유하고 있다. 전시회에선 받아쓰기처럼 글씨를 쓰면 획순을 바탕으로 글자를 맞게 썼는지 알려주는 기술을 전시했다. 이 기술은 '달콤하고 조금 매콤하고'라는 글씨를 쓰면 글자 획순을 맞게 썼는지 보여줬다. 'ㄹ'을 3획순으로 순서대로 쓰면 잘 썼다고 녹색으로 보여줬지만, 잘못된 방향으로 썼을 땐 빨간색으로 보여줬다. 셀비 펜이 손 글씨의 획순까지 인식할 수 있다는 것을 보여준 사례였다. 현재 이 기술은 웅진 씽크빅에서 초등학생 받아쓰기 교육에 활용 중이다.

셀바스AI의 셀비 펜은 '달콤하고 조금 매콤하고'라는 글씨를 쓰면 글자 획순을 맞게 썼는지 확인하는 용도로 사용할 수 있다. 현재 이 기술은 웅진 씽크빅에서 초등학생 받아쓰기 교육으로 활용 중이다. (영상=김동원 기자)

셀비 펜의 기능은 금융 분야에서도 사용할 수 있다. 적금이나 보험 등 상품을 가입할 때 '해당 상품에 대한 설명을 잘 들었습니다'라는 내용을 디스플레이 화면에 쓰는 용도로 사용된다. 사용자의 필순까지 인식할 수 있어 추후 금융사기 등을 방지할 수도 있다. 신한은행과 SC제일은행이 기술을 도입해 사용 중이다.

이항섭 사업대표는 "AI 은행원 등 다양한 금융 분야에서도 많은 혁신이 이뤄지고 있는데 셀비 펜은 불완전판매를 막고 AI로 상품을 가입해도 사기를 방지할 수 있는 용도로 사용할 수 있다"며 "현재 이 기술은 5억 대 이상의 디바이스에 탑재돼 사용되고 있다"고 밝혔다.

음성을 텍스트로 기록하는 것도 가능...B2B에 최적화

셀바스AI는 음성 파일을 텍스트로 변환할 수 있는 기술도 보유하고 있다. '셀비 노트(Selvy Note)'다. 이 솔루션은 사용자의 대화 내용을 높은 정확도로 인식해 글자로 자동 작성한다. 사용자는 연필이나 키보드를 사용할 필요 없이 실시간 대화 내용을 간편하게 기록할 수 있다.

네이버가 제공하는 '클로바 노트'와 유사한 서비스라고 보면 된다. 단 클로바 노트가 B2C(기업과 소비자간 거래) 용도로 사용된다면 셀비 노트는 B2B(기업과 기업간 거래)에 특화된 서비스다. B2B에 사용되는 전문 용어, 영어 등을 정확하게 인식할 수 있다.

셀비 노트는 현재 전국 경찰서 조사실과 대우조선해양 스마트 선박, 군 수사 등에 사용된다. 최근에는 상담 활동이 잦은 아동학대 상담과 조사 관련 지자체 등으로 사용 범위가 확대됐다. 경찰서 조사실과 군 수사 등에는 피해자나 피의자, 증인 등과의 대화 내용을 기록해야 한다. 이 내용을 별도로 작성하기 위해선 인력과 시간이 필요하다. 셀비 노트는 이 작업을 높은 정확도로 대신해주기 때문에 근무자는 업무 효율성을 높일 수 있다.

스마트 선박에서도 마찬가지다. 대우조선해양은 셀비 노트를 스마트 선박에 탑재해 해상용 무선 송수신기에서 출력한 음성 교신을 텍스트로 자동 전환해 선박 내 모니터에 시각화하는 용도로 사용하고 있다. 선박에서 사용되는 음성 교신은 대부분 영어다. 이 교신을 실시간으로 파악하긴 쉽지 않다. 셀비 노트는 음성 데이터를 시각화로 제공하고 데이터를 검색할 수 있는 기능을 제공한다. 사용자는 무전 내용을 놓치는 경우를 대비할 수 있고 실시간으로 운항 상황도 쉽고 정확하게 파악할 수 있다.

이항섭 셀바스AI 사업대표는 "셀비 노트 데이터는 온프레미스 방식으로 안전하게 보호하고 있다"고 밝혔다. (사진=김동원 기자)
이항섭 셀바스AI 사업대표는 "셀비 노트 데이터는 온프레미스 방식으로 안전하게 보호하고 있다"고 밝혔다. (사진=김동원 기자)

회사는 데이터 보호 방안도 강구했다. 조사실에서의 내용이나 아동학대 상담 등의 내용은 제3자가 알면 안 되는 데이터이기 때문이다. 이항섭 셀바스AI 사업대표는 "상담 기록 내용은 온프레미스(소프트웨어를 서버에 직접 설치해 쓰는 방식)로 보관하고 있고 사용자 외 다른 사람의 접근은 일체 막고 있다"고 말했다. 또 "경찰서 조사실의 상담 내용의 경우 작성자만 볼 수 있고 다른 직원이나 다른 서에서 볼 수 없도록 시스템을 구축해놨다"며 "사용자마다 권한을 둬 해당 업무에 직접 관여된 관리자와 사용자만 열람할 수 있도록 권한을 부여하는 방식으로 시스템을 운영 중"이라고 설명했다.

신용카드·사업자등록증 텍스트 입력, 사진만 찍으면 OK!

셀바스AI가 공급하는 인식 기술 중엔 이미 대중에게 익숙한 기술도 있다. OCR 기술이다. 셀바스AI가 제공하는 '셀비 OCR(Selvy OCR)'은 이미지에 있는 문자를 텍스트로 변환하는 솔루션이다. 신용카드, 주민등록증, 운전면허증, 여권 등의 신분증과 사업자등록증, 식품 영양정보라벨, 필기체 인식 등의 다양한 서식을 텍스트로 자동 변환해준다.

이 기술은 이미 대중에게 익숙하다. 온라인으로 결제할 때 신용카드를 등록하거나 신분 인증을 위해 신분증 인증을 할 때 과거에는 카드 번호나 신분증 번호를 일일이 입력해야 했다, 지금은 아니다. 스마트폰 카메라로 신용카드나 신분증 사진을 촬영하면 자동으로 번호가 입력된다. 사람이 일일이 입력해야 했던 작업을 OCR 기술이 대신하기 때문이다.

이항섭 사업대표는 "셀비 OCR은 현재 상용화된 OCR 기술 중 가장 높은 정확도를 자랑한다"며 "비정형 서식은 물론 음원 플레이리스트, 동영상 자막 등 고객사가 필요로 하는 다양한 부분에 커스터마이징해 서비스를 제공하는 것도 가능하다"고 밝혔다.

키보드 없는 세상, 이미 실현됐다

셀바스AI의 인식기술은 서로 동떨어진 기술이 아니다. 예를 들어 제품 설명을 하는 영상 콘텐츠를 제작한다고 가정해보자. 기존에는 하나의 영상물을 만들기 위해선 텍스트로 시나리오를 만들고 자막을 만들었다. 음성으로 보여주기 위해 자막을 읽고 녹음하는 과정도 필요했다. 영상이기 때문에 이를 보여줄 수 있는 화면도 별도로 제작해야 했다.

셀바스AI 기술을 사용하며 이 영상 콘텐츠를 쉽게 만들 수 있다. 키보드로 대본을 작성할 필요 없이 음성을 녹음하면 자동으로 텍스트가 생성된다. 직접 녹음할 필요도 없다. 셀비 보이스를 사용해 원하는 목소리를 선택하면 자동으로 음성 콘텐츠가 생성되기 때문이다. 

영상물도 마찬가지다. 텍스트를 AI가 이해해 영상을 자동으로 만들어준다. 사용자는 중간중간 개입해 원하는 콘텐츠가 나올 수 있도록 방향을 설정하고 결과물을 확인하면 된다. 하나의 콘텐츠를 만들 때 사람이 작업할 양이 현저히 줄어든 것이다. 

이러한 기술들은 현재 정부 기관, 공공기관, 교육, 금융, 의료, 해양 등 다양한 분야에 걸쳐 사용되고 있다. 셀바스AI 관계자는 "우리 기술은 기록이 필요한 모든 분야에 사용할 수 있다"며 "앞으로 키보드와 키패드가 없어도 쉽게 기록하고 결과물을 만들 수 있는 다양한 기술을 선보이겠다"고 말했다.

AI타임스 김동원 기자 goodtuna@aitimes.com / 김미정 기자 kimj7521@aitimes.com

[관련기사]셀바스AI, 지난해 역대 최대 실적 달성...AI 융합 사업 실적 견인

[관련기사]"무전 내용 놓쳐도 걱정 끝"...셀바스AI, 대우조선해양에 AI 음성기록 솔루션 공급

키워드 관련기사
  • "실제와 똑같다?"...셀바스AI, 목소리 고주파대역까지 따라하는 'AI 상담사' 공개
  • 메타버스 사업 본격 시동 거는 셀바스AI, 위지웍스튜디오와 MOU 체결
  • 셀바스AI, AI 음성인식 솔루션으로 시장확대 기대감...클라우드 서비스로 만족도 높여