'ETRI 엑소브레인' 로고

국내 연구진이 기존 문어체 언어 분석 기술을 고도화 한 '구어체 언어 분석 API(Application Programming Interface)'를 공개했다. 글과 사람의 언어를 이해할 수 있는 인공지능(AI) 서비스 개발에 도움을 줄 것으로 보인다.

한국전자통신연구원(ETRIㆍ원장 김명준)은 위키백과와 법령 등 문어체를 이해하는 기존 언어 분석 기술을 확장해 사람의 대화 분석 오류를 최대 41% 개선, 지난달 30일 언어 이해가 가능한 구어체 언어 분석 기술을 오픈 AI APIㆍDATA 사이트에 공개했다고 6일 밝혔다.

ETRI가 기존에 개발한 언어 분석 기술 '엑소브레인(Exobrain)'은 문어체 분석 기술이다. 현재 한컴오피스 2020에 탑재돼 이미 상용화를 이룬 AI 서비스로 ▲언어 분석 기술 ▲딥러닝 언어 모델 기술 ▲질의응답 기술 등을 적용했다. 이번 개발로 ETRI는 기존 엑소브레인에 구어체 분석 기술을 포함시켜 두 가지 언어 분석 기술을 지원한다.

연구진은 기존 문어체 기술을 고도화해 사람의 대화까지 이해할 수 있는 구어체 언어 분석 기술을 개발했다.

'엑소브레인' 구어체 언어분석표

ETRI가 공개한 구어체 언어분석 기술은 크게 ▲형태소 분석 기술 ▲개체명 인식 기술 두 가지다. ETRI는 한국정보통신기술협회(TTAㆍ협회장 최영해) 표준 가이드라인을 따라 두 기술을 개발했으며 형태소 태그는 47개, 개체명 태그는 146개다.

형태소 분석 기술은 한국어 의미의 최소 단위를 분석하는 기술로 한국어 처리에 활용한다. 지난해 ETRI가 발표한 딥러닝 언어 모델 '코버트(KorBERT)'를 개발할 때도 형태소 분석 기술을 기본 입력으로 적용했다.

개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술로 AI 스피커와 챗봇 등 다양한 언어 처리 서비스 구현에 활용도가 높은 기술이다. '국민은행'이라는 단어에서, '국민' '은행' 두 명사의 결합이 아닌 고유 은행 명칭이라는 것을 인식하는 기술이다.

연구진은 구어체 언어 분석의 애로사항으로 과업 자체 난이도가 높다는 점을 꼽았다. '경상도인데'를 '경상돈데'라고 구어체 표현을 할 경우, 기존 형태소 분석 기술은 '경상도+인데'라는 축약 표현을 인식하지 못하고 '경상돈+데'로 분석한다는 설명이다.

또 기계학습 및 딥러닝 기술이 대규모 학습데이터를 필요로 하지만, 구어체 분야 기계학습 및 딥러닝 기술은 학습데이터 확보가 어렵다고 지적했다. 연구진 설명에 따르면, 실제 개체명 인식 학습데이터의 경우 문어체는 약 27만 건이지만 구어체는 1/10 수준인 2만5000건 수준이다.

연구진은 전이학습과 데이터 증강 기법을 활용해 학습데이터 부족 한계를 극복했다.

전이학습과 데이터 증강 기법은 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하기 위한 기술이다. 이미 존재하는 타 분야 학습 모델과 소량의 학습데이터를 재사용해 학습하는 방식이다.

이 방법으로 연구진은 기존 모델 대비 형태소 분석과 개체명 인식 성능을 각각 5.0%, 7.6% 개선했으며 각각 41.74%, 39.38%에 달하는 오류 감소율을 기록했다.

연구진은 구어체 언어 분석 API와 함께 기존 대비 성능을 개선한 문어체 언어 분석 API도 추가로 공개했다. 연구진은 추가 공개한 문어체 언어 분석 API는 형태소 분석과 개체명 인식 기술이 각각 96.80%, 89.40%의 높은 정확도를 보였다고 설명했다.

'엑소브레인' 질의응답 처리 과정을 설명하는 도식표

ETRI는 이번에 개발한 구어체 언어 분석 API 공개로 관련 산업 생태계를 활성화하고 AI비서와 챗봇 등 AI 서비스 개발을 한층 가속화 할 것으로 전망했다.

임준호 ETRI 언어지능연구실 박사는 "이번 구어체 언어 분석 API 공개로 언어 분석의 정확도와 신뢰도를 제고해 국내 AI 시장이 더욱 활성화되길 기대한다"고 말했다.

 

[관련 기사] '5G 다운로드 전송 속도' 지난해보다 빨라졌다…LTE 전환율은 평균 6.19%

[관련 기사] [DNA 우수기업] 〈1〉링크플로우...360도 웨어러블 카메라로 산업현장 안전 책임진다