정형패턴 식별 요소 계산·비정형 데이터 일반화···장애 실체 추출

2개월간 MS서 발생한 4만1000건 장애에 적용···96%이상 정확도

MS, 대규모 클라우드 서비스 구축·운영의 핵심 기술 개발 개가

시스템 자원 점검 프로세스등 자동화···엔지니어 시간 노력 절감

마이크로소프트(MS)가 스스로 알아서 학습해(비지도 학습) 클라우드 서비스가 중단됐을 때 선별해 서비스를 분배할 수 있게 해 주는 소프트너AI(SoftNER AI)를 개발했다. 사진=위키피디아
마이크로소프트(MS)가 스스로 알아서 학습해(비지도 학습)방식으로 클라우드 서비스가 중단됐을 때 선별해 서비스를 분배할 수 있게 해 주는 소프트너AI(SoftNER AI)를 개발했다. 사진=위키피디아

마이크로소프트(MS)가 클라우드 서비스가 중단됐을 때 이를 선별해 서비스 배분에 도움울 주는 비지도 학습방식(스스로 알아서 학습)의 소프트너AI(SoftNER AI)를 개발했다고 벤처비트가 14일(현지시간) 보도했다.

보도에 따르면 MS 연구원들은 클라우드 서비스 중단에 대한 지식을 추출하기 위해 비지도(un supervised) 학습 기술을 사용했다. 이들은 이 AI가 많은 양의 훈련 데이터에 주석을 달 필요가 없게 해 준다고 주장한다.

정형화된(structured) 정보는 특히 중요도가 높은 클라우드 및 웹 운영 도메인에서 고유한 가치를 가진다. 이는 클라우드 서비스가 먹통이 되는 것 같은 긴급 사태 발생시 서비스해야 할 우선 순서를 결정해 줄 분류(선별) 업무(triaging)용 AI 모델 구축에 사용된다. 뿐만 아니라 자원 점검 같은  프로세스를 자동화함으로써 엔지니어의 시간과 노력을 절약시켜 줄 수 있다.

소프트너 프레임워크는 비정형 텍스트 분석, 서비스 끊김 발생 설명을 통한 실체 탐지, 실체를 범주로 분류하는 방식 등을 통해 지식을 추출한다. 

이 AI는 설명(descriptions)에 들어있는 정형 패턴을 식별하는 구성 요소를 사용, 훈련 데이터를 부트스트랩 방식으로 계산하고, 전달(전파)모델과 멀티태스크 모델을 라벨링해 패턴을 넘어선 데이터를 일반화하고 설명들로부터 엔터티를 추출한다. (부트스트랩은 주어진 데이터세트를 원래의 모집단을 대표하는 독립 표본으로 가정하고, 그 자료로부터 중복을 허용한 무작위 재추출로 복수의 자료를 작성하고 각각에서 얻어진 통계량을 계산하는 것이다. 부트스트랩은 데이터에서 얻어진 통계량의 표본오차를 확률 분포의 가정을 두지 않고 변수가 없이 평가하기 위한 방식이다. 계통추정론의 분야에서 계통수의 신뢰성을 평가할 목적으로 널리 사용되고 있다.)

소프트너 실행은 데이터 노이즈제어(de-noising)와 함께 시작된다.

이 AI는 MS 고객·기능 엔지니어·자동화된 모니터링 시스템을 포함한 소스로부터의 사건 설명(incident statements), 대화, 오류메시지(stack traces), 셸 스크립트 및 요약을 추출하면서 두 개 이상의 열이 있는 테이블을 가지치기 하고 관련 없는 외부태그(HTML 태그 등)를 제거해 표준 설명(descriptions)으로 만든다. 그런 다음 이 설명을 문장으로 나누고 문장을 단어로 토큰화한다.

소프트너는 엔터티(entities) 태그 지정(문제 유형, 예외 메시지, 위치, 상태 코드 등)과 데이터 유형 태그 지정(IP 주소, URL, 구독 ID 등)을 한 후 엔티티 값의 유형을 모든 사건 설명에 전한다. 예를 들어 IP 주소 ‘127.0.0.1’이 ‘소스 IP’엔터티로 추출되면 태그가 지정되지 않은 ‘127.0.0.1’의 모든 발생사건들(occurrences)들에도 ‘소스 IP’로 태그 지정한다.

연구원들은 실험을 위해 광범위한 사용자 분포를 갖고 있는 평균 472개 단어를 포함하고 있는 2개월간 MS의 대규모 온라인시스템에서 발생한 4만1000건의 먹통 사건에 소프트너 AI를 적용해 성능을 평가했다. 그결과 연구원들은 이 프레임워크가 설명(descriptions)을 통해 100개 당 77개의 유효한 엔터티를 96% 이상의 정확도로 추출할 수 있었다고 보고했다. (엔터티 형태 구별 평균값은 70개 이상이다.)

이들은 “앞으로 소프트너를 활용해 버그 보고서를 평가하고 기존 시스템 먹통(중단) 사건(outage incident) 보고 툴 및 관리 툴을 개선할 계획”이라고 논문에서 밝혔다.

게다가 그들은 소프트너가 MS에서 자동 선별·분배를 처리할 수 있을 만큼 다운스트림 작업에 서 충분한 정확성을 보인다고 말했다.

이들은 “사건 관리는 대규모 클라우드 서비스를 구축하고 운영하는 데 있어 핵심적인 부분”이라며 “(우리는 소프트너를 이용해)추출된 지식은 중대한 사건 관리 업무를 위한 엄청나게 더 정확한 모델을 구축하는 데 사용될 수 있다는 것을 보여준다”고 썼다.

이 회사 연구원들은 출판전 발표 공간인 아카이브(Arxiv.org)를 통해 발표한 논문에서 400개의 스토리지, 컴퓨팅 및 기타 클라우드 중단에 관한 정보를 대조해 볼 수 있도록 MS 내부에 구축된 프레임워크인 소프트너 AI에 대해 상세히 기술하고 있다.

MS는 버그를 제거하기 위해 머신러닝(기계 학습)을 사용하는 유일한 대형 IT기업이 아니다. 부분적으로 코드 리뷰와 앱 상에서 훈련받은 아마존이 자체 개발한 코드구루(CodeGuru) 서비스는 자원 유출과 CPU 사이클 낭비 등의 문제를 발견하도록 설계됐다.