적은 데이터로 사람 도움없이 인공지능이 단독 해독
예상가능한 언어의 진화 패턴 포착 및 분석
고대문자 해독 연구 MIT, 구글, 시카고 대학 등 활발

MIT 컴퓨터 공학 인공지능 연구소(CSAIL)가 대조 가능한 연관 언어 없이도 비지도학습을 통해 잊혀진 고대문자를 해독할 수 있는 인공지능(AI) 알고리즘을 새로 개발했다고 21일(현지시간) MIT 뉴스가 보도했다. (원문 링크)

MIT CSAIL은 사람이 개입하는 레이블링 없이 인공지능이 자체적으로 패턴과 관계를 찾아 미해독된 언어의 의미를 유추했다고 밝혔다. 연구소는 해당 기법으로 학계에서 논란을 빚어 온 이베리아어 기원에 관해 이베리아어가 바스크어(스페인, 프랑스 지역에서 파생된 고대 언어)와 연관 없다는 것을 입증했다.

레지나 바즐레이 (Regina Barzilay) 교수는 “인공지능은 언어가 예상 가능한 방식으로 진화한다는 언어학의 기본 원칙에 기반을 두어 데이터를 학습하고 분석한다”며  "ㅍ발음은 ㅂ발음으로 대체된 사례가 있지만 ㅋ발음은 그런 경우가 없듯 언어의 진화과정을 확률적으로 좁혀갈 수 있다"고 주장했다.

바즐레이 교수와 루오 지아밍(Luo Jiaming) 연구원(석사)은 언어학적 제약과 특성을 바탕으로 적은 입력값의 해독 알고리즘 개발했다. 이같은 방식은 연관된 언어에 대한 기록과 표본이 적고 문장 해독에 도움이 되는 기호나 띄어쓰기가 없는 경우에 도움을 줄 것으로 학계는 전망했다.

새로운 알고리즘은 현존하는 언어와 사라진 언어 등, 두 언어 사이의 근접성을 계산한다. 두 언어를 입력하면 어족(언어의 족보)이 결과값으로 나온다. 이베리아어와 바스크어를 기입한 경우에는 게르만 어족, 튀르크어족, 우랄 어족보다 상대적으로 높은 근접성을 보이지만 연관성이 있다고 볼 수 있는 기준치에는 미치지 못했다.

사진 = MIT 레지나 바즐레이 교수

알고리즘은 언어의 소리를, 발음의 차이를 해당 벡터값 거리로 나타낸 다차원 공간에 끼워 넣는 방식으로 학습한다. 알고리즘은 언어의 영구적인 변화 패턴을 솎아내어 계산 가능한 값으로 도출한다. 결과적으로 생성된 모델은 고대문자를 단어단위로 분리, 관련된 현대 언어와 연결해 보여준다.

연구소의 최종목표는 전문가들이 해독을 포기한 사라진 언어들을 몇천 개의 단어로 해독하고 발음하는 법을 몰라도 단어의 뜻을 유추할 수 있도록 하는 것.

사진 = 구글 파브리시우스

한편, 인공지능을 통해 사라진 언어와 문자 해독은 관련 업계와 학계에서 지속적으로 시도되고 있다. 미국 시카고 대학은 고고학연구소(OI)와 컴퓨터공학부가 협업해 AI 기술을 활용해 고대 설형문자가 새겨진 점토판을 자동 전사할 수 있는 딥스크라이브 (DeepScribe)을 개발 중에 있고 지난 7월 구글은 상형문자 번역기능 툴인 ‘파브리시우스 (Fabricius)’를 자사의 아트 앤 컬쳐 앱에 추가했다.

[AI & Tech] 구글, AI로 고대 이집트 상형문자 번역한다

[AI & Tech] 고대 문자, AI로 풀어낸다