사용자 개인 디바이스에 분산하는 방식
개인정보에 취약한 중앙서버 단점 해결
구글, 2019년 스마트폰 적용 방식 발표

기존 AI가 대규모 데이터 세트로 학습하고 인공신경망(ANN)이 각 데이터를 중앙서버로 보내는 것을 고집해왔다면, 연합학습은 사용자 개인 디바이스에 분산하는 ‘로컬방식’을 일컫는다.

대규모 데이터는 AI 기술 발전에 가장 중요한 기본 조건이다. 그러나 프라이버시와 보안 등 민감한 분야에서는 그 활용도가 제한적이다. 중앙집중형 서버에서 데이터 세트를 관리하는 것이 아닌, 분산환경에서 머신러닝을 수행하는 기술인 연합학습은 AI 활용을 더욱 확장시킨 학습방식이라 할 수 있다.

연합학습은 크게 ①’분산학습’ ②각기 다른 기관에 분산돼 있는 데이터 파편화를 해결하는 ‘사일로(Silo) 교차’ ③중앙서버가 아닌 사용자 스마트폰에서 모델을 학습하는 ‘디바이스 교차’ 학습으로 구분된다.

사진=셔터스톡
사진=셔터스톡

◆기술동향

국방·통신·의료·IoT 등 정보 유출에 민감한 산업계는 점차적으로 연합학습을 이용한 AI 기술 활용을 진행하고 있다. 연합학습은 중앙서버 단점인 프라이버시 침해에 취약한 점을 개선하기 위해 각 디바이스에서 로컬모델을 학습, 이를 동기화 시킨다.

연합학습에서 서버는 전체 모델의 학습 진행상황을 관리하고, 원본 모델을 참여하는 모든 노드(클라이언트 또는 디바이스)에게 알리는 역할을 한다. 모델학습은 각 클라이언트 측에서 이미 로컬화되기 때문에 서버 단계에서 데이터 액세스가 불필요하다. 각 노드 가중치에 따라 그 일부만 글로벌 모델과 공유되기 때문에 개인정보 유출에서 자유로운 동시에 데이터 노출도 피할 수 있다.

각각의 노드는 개별적 로컬 데이터 샘플에 따라 로컬모델을 학습하고, 이후 발생하는 파라미터를 ▲중앙집중 vs. 분산 ▲동기 vs. 비동기 방식에 따라 교환한다. 중앙서버 관리자는 이것을 모두 취합해 모든 노드가 공유·활용될 수 있도록 글로벌 모델을 생성한다. 이러한 각 노드에서부터 얻은 학습결과는 중앙서버의 글로벌 모델 학습에 반영되며, 중앙서버와 로컬의 융합 (A + B) 조합의 완벽에 가까운 성능을 구축하는 것이 최종 목표다.

이러한 효율적 장점에도 연합학습은 데이터 유효성과 불균형 문제를 해결해아 하는 과제가 남아있다.

과제 1) 클라이언트는 저마다 다른 환경을 비롯해 시공간, 사용자로부터 수집한 데이터를 사용한다. 이 과정에서 독립동일분포(IID: Independent Identically Distributed) 가정을 만족하지 못할 경우를 대비하는 대응책이 필요하다. IID란 각각의 확률변수(Random Variable)들이 독립 또는 동일한 확률분포를 갖는 것을 뜻한다.

과제 2) 데이터가 IID 조건을 만족하지 못했을 때, 전통적 연합학습 알고리즘은 수렴될 확률이 적다. 데이터가 이질적인 환경에서도 FedAvg 성능을 분석하고 보완한 FedProx가 제안돼야 한다.

과제 3) 균형있는 데이터 세트 생성을 위해 ‘연합 데이터 증강(FAug, Federated Augmentation)’ 구축이 필요하다.

지금까지 연합학습은 지도학습을 중심으로 연구돼왔다. 그러나 최근 들어 비지도학습을 비롯해 ▲강화학습 ▲전이학습 ▲메타학습 ▲평생학습 등과 접목·확장이 진행되고 있는 추세다. 특히 메타학습의 프레임워크를 활용해 연합학습의 비용과 정확도를 개선하고 있으며, 연합 전이학습(FTL, Federated Transfer Learning)을 도입해 부족한 부분을 채워주는 ‘상보적 지식’ 전이연구가 진행되고 있다.

이외에도 개인화된 연합학습 모델을 지원하기 위해 메타러닝 알고리즘인 MAML(Model-Agnostic Meta-Learning)이 사용되기도 한다. 지능형 IoT 구축을 위해 클라우드-엣지 아키텍처 기반의 개인화 된 연합학습 프레임워크도 제안되고 있다.

연합학습 연구개발은 표본공간(Sample Space)와 특징공간(Feature Space)에 따라 ▲수평연합학습 ▲수직연합학습 ▲전이연합학습으로 분류할 수 있다.

1) 수평연합학습

두 개 이상의 다른 집단이 다른 샘플 데이터를 대상으로 동일한 특징을 다룰 때 해당된다. 한 예로 각기 다른 지역 은행이 있다고 가정하자. 은행의 주 거래 고객(샘플)은 다르겠지만 은행 업무는 동일한 특징을 갖고 있다. 수평연합학습의 구조는 ①각자 독립적으로 훈련 ②파라미터 업데이트는 중앙서버에서 공유 ③중앙 집중형 모델 학습 후 로컬에 모델 배포로 이루어진다.

Horizontal 연합학습 구조. (사진=정보통신기획평가원(IITP) '인공지능 기술 청사진 2030')
Horizontal 연합학습 구조. (사진=정보통신기획평가원(IITP) '인공지능 기술 청사진 2030')

2) 수직연합학습

데이터를 생산하는 집단은 같지만 데이터 특징이 다를 때 해당되는 학습기법이다. 일례로 한 지역 내 은행(A)과 서비스업체(B) 고객은 겹칠 수 있지만 이들을 위한 서비스 성격은 다르기 때문에 다른 특징 공간이 필요하다. 데이터 공유가 불가능한 A와 B 사이 중재를 위해 신뢰할 수 있는 서드파티 C가 개입한다.

Vertical 연합학습 구조. (사진=정보통신기획평가원(IITP) '인공지능 기술 청사진 2030')
Vertical 연합학습 구조. (사진=정보통신기획평가원(IITP) '인공지능 기술 청사진 2030')

3) 전이연합학습

표본공간과 특징공간 모두 공통점이 부족한 경우 적용된다. 전이학습 기술을 통해 다양한 소스의 데이터를 활용, 프라이버시 보호도 정확히 달성한다. 악의적 공격에 정보가 유출되는 방법 연구도 활발히 진행 중. 미 MIT 연구팀은 연합학습에서 공유되는 미분값으로부터 입력 이미지를 복원하는 테스트에 성공했다.

 

◆시장 동향

2019년 구글은 사용자가 직접 사용하는 스마트폰에서 데이터를 처리하고 모델을 강화하는 연합학습을 발표했다. 이를 통해 AI는 사용자와 더 밀접하게 실시간으로 작동한다.

엔비디아는 유전체 분석, 종양 검출에 뛰어난 자체 연합학습 기술 클라라를 출시했다. 환자의 데이터를 보호하는 동시에 자동 종양 진단 시스템 가동을 위해 방대한 양의 데이터베이스 구축이 가능하다.

또 IBM리서치는 연합학습을 위한 다양한 토폴로지, 퓨전 알고리즘, 보안 및 암호화 등 요구조건을 효과적으로 조합하고 적용하는 모듈 아키텍처 프레임워크를 공개했다.

연합학습 기술의 활성화는 여러 곳에 파편화되어있는 데이터 관리, 주체 간 활용에 협력성을 기르고 산업 간 융합을 촉진시킨다는 장점이 있다. 현재 이 기술은 미국, 유럽 등 선진국가에서도 연구개발 단계에 있으며, 지금껏 사용하지 못한 고부가가치 데이터를 기반으로 한 AI솔루션을 개발해 미래 신산업에 적용될 수 있다는 점에서 주목할 만하다.

데이터 수집이나나 이종데이터 처리를 자동화할 수 있다는 장점은 앞으로 다양한 산업분야에서 시장확대도 기대해 볼 수 있다.

 

◆발전전망

현재 연합학습은 주요 AI 플랫폼에 지원을 시작하고 있는 단계다. 지속적으로 다양하고 복잡한 응용을 위한 지원이 요구되고 있다. 또 응용 시나리오에서 나타나는 데이터 이질성, 불균형, 유효성에 대한 연구도 필요하다.

단기(2020~2022년)에는 중앙서버 역할을 완화하고 노드 간 학습결과 구조를 최적화하는 기술을 연구하는 게 목표.

중기(2023~2026년)에는 계층별 모델 실행을 통해 클라이언트와 서버 간 분할학습 기법을 연구한다. 수직연합학습, 전이연합학습을 이용해 정확도에 손실을 입히지 않으면서 데이터 프라이버시를 보호하는 목표를 달성하고자 한다.

장기(2027~2029년)에는 연합학습 최적의 워크플로우를 구축, 데이터 유효성과 불균형 문제를 해결하는 데 초점을 둔다. 비지도학습, 강화학습, 메타러닝, 평생학습과 결합해 연합학습 영역을 확장시키는 게 최종 목표다.

 

◆주요 프로젝트

[미국]

① 구글 ‘TensorFlow Federated’

연구시기 : 2016년~

② 엔비디아 ‘Nvidia Clara’

연구시기 : 2018년~

③ Stanford University ‘Distributed Learning of Deep Learning Models for Cancer Research’

연구시기 : 2019년~

[유럽]

① IBM 아일랜드 ‘MUSKETEER’

연구시기 : 2018~2021년

[국내]

① 울산과학기술원 ‘딥러닝 기반의 개인정보보호가 보장되는 연합학습 플랫폼 개발’

연구시기 : 2020~2024년

② 서울대병원, 한국보건산업진흥원 ‘분산형 인공지능 연합학습 지원을 위한 통계적 방법론 개발’

연구시기 : 2019~2021년

③ 고려대, 한국보건산업진흥원 ‘분산형 인공지능 연합학습 개발’

연구시기 : 2019~2021년

 

"인공지능과 자연지능 연계 집중할 때" AI 기술청사진 연구 총괄 IITP 박상욱 팀장 

[특별기획] 인공지능 기술 청사진 2030 연재순서 표

AI타임스 박혜섭ㆍ정윤아 기자 phs@aitimes.com

키워드 관련기사
  • “한번 배운 건 잊지 않고 활용” [특별기획 AI 2030] ⑰ 평생학습
  • “인간 뇌 기능을 AI에 적용해보자” [특별기획 AI 2030] ⑱ 뇌인지 발달모사
  • 최대한 가볍게 만들면서 기능은 유지 [특별기획 AI 2030] ⑳ 모델 경량화