“가장 빠르게 성과를 낼 수 있는 인공지능(AI) 기술은 바로 광학문자인식(OCR)이라고 생각했습니다. 한국딥러닝은 OCR 블라인드 테스트 등 공급기업 결정 과정에서 늘 가장 많이 선택받는 기업이었습니다.”
2019년 설립된 한국딥러닝(대표 김지현)은 꾸준히 흑자를 이어오는 등 AI 기업으로는 주목할 만한 행보를 보이고 있다. 특히, 시각언어모델(VLM) 기반 OCR 기술을 국내에서 가장 먼저 선보인 기업 중 하나다.
짧지 않은 업력에도 불구, 김지현 대표는 아직 20대다. 컴퓨터와 코딩 관련 서적이 가득한 집안에서 일명 ‘코딩수저’로 자라났다.
경영 철학도 확실하다. ‘투자나 미래 성장성에만 의존하지 않는 마인드’를 강조했다.
그래서 선택한 것이 OCR이다. “기업이 AI를 도입하는 과정은 절대 쉽지 않다”라며 “인건비를 확실하게 줄이고 비용 효율을 직관적으로 향상하는 AI 기술이 바로 OCR”이라고 설명했다.
한국딥러닝의 OCR 비즈니스는 B2B와 B2G 중심으로 전개된다. 지난해에는 누적 매출 100억원을 돌파했다.
수요가 많은 만큼 경쟁도 치열한 분야다. 김 대표는 차별점으로 가장 먼저 ‘빠르고 편리하고 쉬운 사용성’을 꼽았다.
이를 대표하는 것이 ‘쓰리 제로 OCR’이라는 슬로건이다. ▲제로 라벨링 ▲제로 디플로이 타임(모델 구축 시간) ▲제로 프리 트레이닝(사전 훈련) 등이 가능한 기술을 구현한 것이다.
라벨링과 구축 시간, 사전 훈련 없이 기업용 OCR 시스템 구축이 가능한 이유 중 하나로 대량의 데이터를 보유한 사실을 들었다. 지난 5년간 확보한 4억장 이상의 데이터로 VLM을 훈련했다. 나아가 문서에 최적화된 프론티어 모델까지 구축했다.
학습 데이터는 외부 기관 등과 계약, 단독으로 확보한 것이 대부분이다. 웹 크롤링 등으로 저작권을 무시한 데이터 확보 방안과는 확실히 차별화된다고 전했다.
그렇다면 한국딥러닝이 실제 OCR을 구축하는 데에는 어느 정도 기간이 소요될까. 답은 약 2주(10여일) 정도다.
쓰리 제로 OCR이 가능한 이유 중 하나로 ‘테크니컬 PM’ 인력을 들었다. 김 대표는 “테크니컬 PM은 고객사와 커뮤니케이션뿐만 아니라, 기술을 완전히 이해해야 한다”라며 “관련 전공 석박사급 전문가들이 기업과 1대 1 소통을 진행하며 실제 기술 도입을 지원하고 있다”라고 밝혔다. 현재 4명이 전담하고 있다.
10일 정도의 ‘프리빌트 라인’ 체계를 갖추고 있다는 것도 노하우로 소개했다. 문의 접수 직후 유선 미팅 및 데이터 전달 - 자료 검토 및 초도 미팅 - 환경 분석 및 설계 컨설팅 - 계약 체결 - 전담 테크니컬 배치 등으로 진행된다.
역시 핵심은 기술이다. 문서별로 적절한 조치를 취하는 ‘데이터 옵스’ 시스템을 갖췄다. 5년 전부터 개발한 것으로, 성능은 계속 업데이트 중이다. 내부 엔지니어들도 이를 활용, 데이터를 디버깅한다. 이를 통해 단축된 업무 시간은 90% 이상에 달한다.
이런 이유로 김 대표는 “국내 IT 대기업 대부분이 한국딥러닝의 OCR 기술을 활용하고 있다”라고 말했다.
이처럼 많은 프로젝트를 수행해 온 경험도 장점이지만, 앞으로가 더 기대된다고 전했다. 최근 완성한 VLM 기반 OCR 기술 때문이다.
VLM이 기존 OCR과 가장 다른 점은 ‘의미 기반 추론’이 가능하다는 것이다. ‘우편물 손 글씨 인식’을 예로 들었다. 한국딥러닝은 이전에 기업 간 오가는 우편물의 수기 작성 택배 운송 송장을 OCR로 인식하는 프로젝트를 진행했다.
김 대표는 “극악의 난이도를 가진 프로젝트였다”라고 설명했다. 예를 들어, ‘롯데백화점 김포’를 ‘롯백 김포’라는 줄임말로 적는 것은 물론 휘갈긴 글씨까지 인식이 어려운 조건이 여럿 결합해 있었다. 당시만 해도 인식 정확도를 높이기 위해서는 해당 글씨체와 자주 쓰는 단어, 상황 등을 종합해 모델을 일일이 커스터마이징해야 했다.
그러나 VLM OCR을 이용하면, 단번에 많은 문제가 해결된다. VLM은 ‘글씨를 보고, 의미를 이해하는’ 구조이기 때문이다. 따라서 AI는 ‘롯백’ 등 줄임말이 무슨 뜻인지 풀이해 준다.
성능은 이미 기업 현장에서 입증됐다. 한 기업은 매일 40여종의 다양한 문서가 쏟아지는 바람에, 사내 시스템에 정리되지 않은 문서들이 잔뜩 쌓여 있는 상태였다.
하지만 VLM OCR을 도입, 문서 한건당 인식-처리 시간을 기존 10분에서 1분으로 단축할 수 있었다. 90% 이상 시간을 단축, 결과적으로 1년에 17억원을 절감할 수 있게 됐다는 설명이다.
김지현 대표는 “올해가 터닝포인트이자 가장 중요한 시기라고 생각하며, 최고 실적을 달성할 것으로 예상한다”라며 “투자 라운드도 오픈할 예정”이라고 말했다.
앞으로 기술 도약도 기대해달라고 전했다. 현재 VLM OCR을 대형언어모델(LLM)로 강화, 실시간 이해와 검색까지 지원할 계획이다.
이미 대형 물류 및 IT 기업 3곳과 기술 실증(PoC)을 진행 중이며, 기술은 완성된 상태라고 전했다. 이 기술은 이달 또는 다음 달 정식 공개할 예정이다.
장세민 기자 semim99@aitimes.com
