데이터 압축+딥러닝···딥러닝만으로 어려웠던 고차원 AI타깃 데이터 파악 용이

통신망접속·의료 데이터 등 분포·확률 알 수 없는 데이터들 특성 정확히 포착

오토인코더로 고차원 데이터 차원성 저하→복원···데이터특성 정확히 포착 입증

모든 데이터에서 기존 딥러닝 기반 오류율보다 최대 37%↑···세계 최고 정확도

▲그림 1은 검증되지 않은 경험적 방법으로 인한 잘못된 결정을 보여주는 오류의 사례다. 자료=후지쯔
고차원 데이터 처리시 검증되지 않은 경험적 방법으로 인한 잘못된 결정을 보여주는 오류의 사례다. (자료=후지쯔)

후지쯔가 이미지 압축 기술을 결합한 딥러닝 기술로 고차원 데이터를 최적화 해 데이터 특징을 정확하게 추출할 수 있게 해주는 인공지능(AI) 기술을 개발했다. 

벤치마크 데이터로 테스트한 결과 기존 딥러닝 방식과 비교해 오류율을 최대 37% 개선했다. 세계 최고 수준의 정확도다.

데이터나미는 13일(현지시간) 일본 후지쯔연구소가 인공지능(AI) 검출·판단의 정확성을 높이기 위한 고차원(high dimension) 데이터의 분포·확률 등 필수 속성을 라벨링한 데이터 없이도 정확히 포착하는 AI 기술을 세계 최초로 개발했다고 보도했다.

후지쯔의 이 AI기술은 종전과 달리 이미지 압축에 사용되는 ‘정보이론’과 ‘딥러닝’을 결합한 방식이다. 이로써 고차원 데이터에서 줄어들 데이터 차원(크기)의 수와 딥러닝에 의해 차원이 감소한 데이터 분포를 최적화할 수 있게 됐다.    

고차원 데이터는 통신망 접속 데이터, 의료 데이터 유형, 이미지 등을 포함하고 있는데 그 동안 그 계산상의 복잡성 때문에 여전히 처리에 어려움을 겪어왔다.

이 때문에 대상 데이터의 특성을 파악하는 데에도 어려움을 겪고 있다. 이를 해결하기 위해 지금까지는 딥러닝만을 이용해 입력 데이터의 차원을 줄이는 기법을 사용했고, 때로는 AI가 잘못된 판단을 내리기도 했다.

◆개발 배경

많은 기업 활동에 사용되는 데이터는 고차원 데이터다. 데이터가 커짐에 따라 데이터를 정확히 특성화하기 위해 필요한 계산의 복잡성은 기하급수적으로 증가하는데, 이는 “차원성의 저주(Curse of Dimensionality)”로 널리 알려져 있다.

최근에는 딥러닝을 이용해 입력 데이터의 크기를 줄이는 방법이 이 문제를 해결하는 데 도움이 되는 유망 후보로 확인되고 있다. 그러나 데이터 감소 후의 데이터 분포와 발생 확률을 고려하지 않고 차원이 줄어들기 때문에 데이터의 특성이 정확하게 포착되지 않는다.

이는 AI의 인식 정확도를 제한하면서 잘못된 판단을 낳게 할 수 있다. (맨위 그림) 이러한 문제를 해결하고 고차원 데이터의 분포와 확률을 정확하게 획득하는 것이 AI 분야에서도 중요한 문제로 남아 있다.

최근 여러 사업 분야에서 AI 주도형 빅데이터 분석 수요가 급증하고 있다. AI는 데이터에서 이상 징후를 감지해 무단 네트워크 접속 시도나 갑상선 수치나 부정맥 데이터에 대한 의료 데이터 이상 등을 밝히는 데도 도움이 될 것으로 기대된다.

◆새로 개발된 기술은?

후지쯔는 세계 최초로 라벨링된 훈련 데이터 없이도 고차원 데이터의 특성을 정확하게 포착하는 AI 기술을 개발했다.

후지쯔는 국제데이터마이닝협회(CI) ‘지식발견 및 데이터 마이닝(KDD)’이 배포한 통신접속 데이터, 갑상선 수치 데이터, 어바인 캘리포니아대학이 배포한 부정맥 데이터 등 각기 다른 분야의 데이터 이상을 감지하는 벤치마크를 대상으로 신기술을 시험했다.

새롭게 개발된 기술은 모든 데이터에서 기존 딥러닝 기반 오류율보다 최대 37% 향상된 성능으로 세계 최고 정확도를 달성하는 데 성공했다.

이 기술이 AI 분야의 근본적인 과제 중 하나인 데이터 특성을 정확히 포착하는 방법을 해결한 만큼 광범위한 새로운 응용분야에 대한 빗장을 풀 중요한 기술임을 증명할 것으로 기대를 모으고 있다.

후지쯔 연구소의 나카가와 아키라 연구원은 이번 개발 성과에 대해 “최근 수년간 AI 분야의 핵심 과제 중 하나인 ‘데이터의 확률과 분산 포착’ 문제를 해결하기 위한 중요한 단계를 보여준다”고 평가했다. 그는 “이 기술이 AI의 성능 향상에 기여할 것으로 보고 있으며, 이 지식을 활용해 다양한 AI 기술을 개선할 수 있는 가능성에 큰 기대를 걸고 있다”고 말했다.

후지쯔의 기술을 이상(anomality)을 검출하는 데 적용했을 때의 오류율 개선을 보여주는 표. 자료=후지쯔
후지쯔가 개발한 기술을 이상(anomality)을 검출하는 데 적용했을 때 오류율 개선을 보여주는 표. (자료=후지쯔)

후지쯔가 개발한 기술의 특징은?

1. 데이터의 특성을 정확하게 포착하는 이론의 증명

수천에서 수백만의 차원으로 구성된 고차원 데이터인 영상과 오디오 데이터의 압축은 수년 간의 연구를 통해 데이터의 분포와 발생 확률을 명확히 해왔으며, 이산 코사인 변환(discrete cosine transform)을 통해 차원의 수를 줄이는 방법과, 이 알려진 분포와 확률에 최적화된 다른 방법들도 이미 확립돼 있다. 이산 코사인 변환(Discrete cosine transform)이란 이미지나 오디오 신호를 주파수 요소의 세기로 변환하는 푸리에 변환의 일종이다.

데이터 품질 저하가 오리지널 영상·음향과 복원된 영상·음향 사이에서 일정 수준으로 억제될 때 차원 감소 후 데이터의 분포와 발생확률을 이용해 데이터를 복원함으로써 압축된 데이터 정보의 양을 최소화할 수 있다는 것이 이론적으로 증명되었다.

후지쯔는 이미지 압축 이론에서 영감을 받아 “통신망 접속 데이터·의료 데이터처럼 분포와 확률을 알 수 없는 고차원 데이터의 경우 신경망기반의 비(非)지도(unsupervised) 차원의 압축 기법인 오토 인코더에 의해 데이터의 차원성이 저하된다. 데이터가 복원됐을 때 차원성 감소(demension reduction) 이후 정보 양은 최소화하는 반면, 오리지널 고차원 데이터와 복원된 데이터 사이의 성능 저하(degradation)는 일정한 값으로 유지된다. 이는 오리지널 고차원 데이터의 특성이 정확하게 포착되고 차원성이 최소화되게 한다”는 새로운 수학이론을 세계최초로 입증했다.
 

후지쯔가 증명한 정보 압축 기술에서 영감을 받은 데이터 특성에 충실한 분포와 확률을 획득하기 위한 이론적 프레임워크. 자료=후지쯔
후지쯔가 증명한 정보 압축 기술에서 영감을 받은 데이터 특성에 충실한 분포와 확률을 획득하기 위한 이론적 프레임워크. (자료=후지쯔)

2. 딥러닝을 이용한 차원 감소 기술

일반적으로 딥러닝은 최소화할 필요가 있는 객관적 비용(objective cost)을 정의함으로써 복잡한 문제에서도 객체 비용을 최소화하는 매개변수의 조합을 결정할 수 있다.

후지쯔는 이 기능을 이용해 데이터의 차원을 감소시키는 오토인코더와 차원 감소 이후 데이터분포 모두를 제어하는 파라미터(변수)를 도입했다.

후지쯔는 “우리 방식은 압축 이후 정보량을 객관적 비용으로 계산하고 딥러닝을 통해 이를 최적화했다. 이는 ‘1.’에서 설명한 수학 이론에 따라 최적화했을 때, 차원적으로 감소된 데이터 분포와 확률을 정확히 특성화할 수 있게 해 준다”고 말했다. 

후지쯔가 고차원 데이터의 크기 감소 변환 분포·확률을 얻기 위해 사용한 딥러닝 기술 이미지. 자료=후지쯔
후지쯔가 고차원 데이터의 크기 감소 변환 분포·확률을 얻기 위해 사용한 딥러닝 기술 이미지. (자료=후지쯔)

향후 계획

후지쯔는 2021 회계연도 말까지 실용적인 사용을 목표로 신규 개발 기술의 실질적 적용을 진전시켜 나가며, 더 많은 AI 기술에 적용할 계획이다.

후지쯔는 12일 열린 기계학습 국제회의(ICML 2020)에서 기술 내용을 상세하게 발표했다.

 

[관련기사] IBM, ‘네티자’로 데이터분석 시장 재도전

[관련기사] 엔비디아, 빅데이터 처리 속도 높인 'Spark 3.0' 발표

키워드 관련기사
  • "MLPerf, 우리가 더 높아"...엔비디아 vs 구글
  • 키워드

    Tags #빅데이터 #AI #딥러닝