한글과컴퓨터(대표 김연수)가 PDF 문서에서 데이터를 추출하는 엔진 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’를 글로벌 오픈 소스로 공개했다고 17일 밝혔다.
한컴은 7월 PDF 기술 전문 기업 듀얼랩과 업무협약을 체결하고 공동으로 오픈소스 기반 PDF 데이터로더를 개발했다. 이는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 추출해, AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환해주는 기술이다.
벤치마크 결과, 다른 오픈 소스 기술보다 우수한 성능을 보였다고 설명했다. 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술보다 높은 85%라는 수치를 기록했다.
네트워크 연결없이 오프라인으로 작동해, 데이터 유출 위험을 차단했다고 덧붙였다. 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등을 자동 감지·차단하는 기능을 추가 제공할 예정이다.
정지환 한컴 최고 기술책임자(CTO)는 “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”라며 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다”고 말했다.
한편, 오픈데이터로더 PDF 프로젝트에 대한 자세한 정보와 활용 사례는 공식 홈페이지에서 확인할 수 있으며, 오픈소스코드는 깃허브 공식 저장소를 통해 제공된다.
박수빈 기자 sbin08@aitimes.com
