일본 고문서의 '초서‘ AI가 고속 해독, 정확도 90%
상태바
일본 고문서의 '초서‘ AI가 고속 해독, 정확도 90%
  • 윤광제 기자
  • 승인 2019.11.13 09:54
  • 댓글 0
이 기사를 공유합니다

▲ AI번역 소프트  ‘KuroNet'은 일본 고문서에서 읽기 어려웠던 '초서‘를  순식간에 해독하며 정확도 90%에 달한다. ©AI타임스
▲ AI번역 소프트 ‘KuroNet'은 일본 고문서에서 읽기 어려웠던 '초서‘를 순식간에 해독하며 정확도 90%에 달한다. ©AI타임스

(AI타임스=윤광제 기자) 일본의 고전문학이나 고문서 등의 초서를 해독하는 인공지능(AI)에 관심이 쏠리고 있다.

일본내 정보·시스템 연구기구가 개발한 AI는 글자를 순식간에 현대의 문자로 변환한다. 향후 일본문학 연구자료관 등과 협력해 대량의 고전이나 고문서를 해독하는 프로젝트에 착수할 예정이다..

▲ 전문가는 1쪽 10분, AI는 1초에 완료
“고전의 해독은 전문가가 1쪽당 10분 정도 걸립니다. 이 AI라면 1쪽을 1초 정도로 되살릴 수 있습니다”

초서 해독 AI의 소프트 ‘KuroNet(크로넷)’을 개발한 동 기구 인문학 오픈 데이터 공동 이용 센터(CODH)의 칼라 누왓·탈린 특임 조교는 그렇게 말했다.

탈린 씨의 컴퓨터 화면에 겸호법사의 ‘도연초’를 표시받았다. 현재 우리가 사용하고 있는 글자와는 다른 모양의 글씨가 많은 데다 위아래 글씨가 연결돼 있어 쉽게 읽을 수 없다.

이 화상을 KuroNet에 넣으면, 즉석에서 해독이 끝나고, 초서 옆에 빨간색으로 현대의 문자가 표시됐다. 일부 글자는 제대로 해독되지 않은 부분도 있지만 대부분은 읽을 수 있다.

▲ 고전·고문서의 난독 '초서‘, AI가 순식간에 해독. 정확도 90%도
초서 해독 AI 개발에 몰두하고 있는 정보·시스템 연구기구의 칼라누와트·탈린씨. 누구나 사용할 수 있도록 홈페이지에 공개 예정이다.

태국 출신의 탈린씨는 ‘겐지모노가타리’를 계기로 일본의 고전문학에 흥미를 가져 와세다대로 유학을 왔고, 겐지 이야기의 주석서 등의 연구로 박사 학위를 취득했다.

많은 시간과 노력을 초서를 해독하는데 쓴 경험으로 인해 글자를 효율적으로 해독하는 시스템을 스스로 만들어야겠다고 생각했다.

방대한 데이터를 바탕으로 스스로 배우는 딥러닝(심층학습) 구조를 초보부터 배워 KuroNet을 개발했다. AI에는 약 68만자 분량의 초서를 학습시켰다. 변체 가나와 초서의 한자 등을 포함한 잠식 글자 약 2,400종을 인식하고 에도 시대의 문헌은 90%정도의 해독 능력을 지닌 것으로 알려져 있다.

올해 11월까지 학습의 대상을 약 100만 자까지 늘리고 더욱 정확성을 높인 뒤 누구도 사용할 수 있게 홈페이지에서 공개할 예정이다.

▲ 글자의 끄트머리, 알아보기 어려웠는데...

▲ AI번역 소프트 ‘KuroNet'에 일본 고문서 사진을 적용하면 즉석에서 해독이 끝나고, 초서 옆에 빨간색으로 현대의 문자가 표시됐다. ©AI타임스
▲ AI번역 소프트 ‘KuroNet'에 일본 고문서 사진을 적용하면 즉석에서 해독이 끝나고, 초서 옆에 빨간색으로 현대의 문자가 표시됐다. ©AI타임스

초서는 앞뒤 글자가 연결돼 있어, 조리를 알기 어렵다. 문자를 처음부터 차례로 읽을 때 어려운 글자 하나 때문에 해독이 멈출 수 있다. 거기서 탈린씨는 문자의 영역을 정하지 않고 갑자기 해독하는 것을 시도했다.

이 방법을 사용하자 AI는 문장의 단락이나 행 등에 구애받지 않고 찾아낸 문자에서 점점 해독해 나가는 것을 알았다. 탈린씨의 공동 연구자로, 캐나다·몬트리올대의 대학원생 알렉스·람씨는 “굉장히 단순한 사고방식이었기 때문에, 반대로 아무도 하려고 하지 않았다”고 회고했다.

다만, KuroNet에는 아직 과제가 남아있다. 지금까지 학습에 사용한 고전은 판목에 새겨진 문자를 인쇄한 ‘판본’이 대부분이기 때문이다. 이것들은 전문 장인이 쓴 문자가 바탕이 돼 있어 글자의 크기 등의 편차가 적다.

이에 비해, 일본 각지에 남는 손으로 쓴 고문서 등은 글자의 크기나 먹의 농담이 갖추어지지 않은 것이 많기 때문에 AI에 의한 해독의 정확도가 떨어질 수 밖에 없다.

탈린씨는 고문서는 고전보다 수와 양이 많은 데다 전문가들도 해독이 어려운 경우가 있다. “요구가 많은 고문서 해독의 정도를 올릴 수 있도록 연구를 계속하고 싶다”고 말한다. 손으로 쓴 글씨 데이터를 대량으로 학습시키는 것 등을 검토하고 있다.

▲일본 내에 존재하는 고전·고문서는 수억 점. 신발견의 보고로 기대
초서는 헤이안 시대부터 1,800년대까지 약 1,000년간 사용되고 국내에 존재하는 고전과 고문서 등은 수억 점에 달하는 것으로 전한다.

인간 문화 연구 기구의 국문학 연구 자료관은 국내에 보관된 고전 약 30만 점을 디지털 화상에 공개하는 프로젝트를 진행 중이다. 머지않아 이러한 화상 데이터를 AI로 해독하는 것을 목표로 하고 있다.

국문학 연구 자료관의 야마모토 카즈아키 교수는 “방대한 수의 자료를 AI로 읽어내면 문학 뿐만이 아니라 역사나 정치, 자연재해에 이르기까지 모든 분야의 지식을 얻을 수 있을 것”이라고 말했다.

CODH의 키타모토 아사노부 센터장도, “지금까지 알려지지 않았던 작품 등 새로운 발견으로 이어질지도 모른다”며 기대를 하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
이슈포토
  • Ville de Gwangju : vers une nouvelle ère de l'IA
  • 광주시 ”의향 광주를 넘어 인공지능 광주시대로“
  • 29번 확진자 다녀간 고대안암병원 응급실 폐쇄…환자는 서울 숭인동 거주(종합)
  • 플루 ”우한폐렴, 플루 손세정제로 예방 하세요“
  • 순천시, ‘아이디어 페스티벌’ 참가자 모집
  • 우한 폐렴 창궐하는 중국, IT 기업에게는 혁신의 기회가 될 수도