21일 개최된 '2021년 사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 김정삼 과학기술정보통신부 정보보호네트워크정책관이 인사말을 하고 있다. (사진=한국인터넷진흥원 유튜브 채널 캡처).
21일 개최된 '2021년 사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 김정삼 과학기술정보통신부 정보보호네트워크정책관이 인사말을 하고 있다. (사진=한국인터넷진흥원 유튜브 채널 캡처).

과학기술정보통신부와 한국인터넷진흥원(KISA)이 지난해 사이버보안 인공지능(AI) 데이터셋(악성코드·침해사고 분야) 구축 추진 성과를 공유하고 우수 활용사례를 소개하는 자리를 가졌다. 21일 서울시 중구 더 플라자 호텔 메이플홀에서 열린 '사이버보안 AI 데이터셋 구축 성과 공유회'를 통해 민간분야 AI 기반 보안 대응체계 고도화를 위한 심도 있는 논의의 장을 마련한 것. 

※ 인공지능(AI) 데이터셋 : AI 기술을 활용한 보안제품·서비스 개발을 위해 필요한 정상·공격 데이터를 수집·분석·가공(비식별화·라벨링 등)해 모아둔 AI 학습용 데이터 

날로 지능화되는 사이버 공격…기관·기업들, AI 활용한 대응 방안 모색

이번 행사에는 과기정통부와 KISA, 실증 참여기관, 보안기업, AI 기업 등 관계자 및 전문가들이 참석해 날로 지능화·고도화되는 사이버 공격에 대해 국내 기업이 AI를 활용함으로써 효율적으로 대응할 수 있는 방안을 모색했다. '2022년 AI 도입 지수 연례 보고서'에 따르면 전 세계 기업 AI 도입률 평균이 34%인 반면 한국은 22%로 하위권에 속한다.

그동안 국내 보안기업들은 AI 기술 도입과 학습을 위한 양질의 학습용 데이터셋이 없어 어려움을 겪어왔다. 이에 과기정통부와 KISA는 이 같은 문제점을 해결하고자 지난해부터 '사이버보안 분야 학습용 AI 데이터셋 구축사업'을 추진해왔다. 사이버보안 데이터 선순환 환경 조성을 통해 'AI 기반의 안전한 디지털 강국' 도약 실현을 목표로 '악성코드'와 '침해사고' 2개 분야로 나뉘어 이뤄졌다. 그간 구축된 데이터셋은 2개월간의 실증기간을 거쳐 이날 그 성과를 공유하게 된 셈이다.

인공지능(AI) 데이터셋의 구축현황과 활용방안. 2022년에는 응용 프로그램 보안(취약점) 분야와 능동형 보안관제 분야, 위협 공격자 분석(프로파일링) 등 3개 분야 사업이 추진 중이다. (자료=과학기술정보통신부 제공).
인공지능(AI) 데이터셋의 구축현황과 활용방안. 2022년에는 응용 프로그램 보안(취약점) 분야와 능동형 보안관제 분야, 위협 공격자 분석(프로파일링) 등 3개 분야 사업이 추진 중이다. (자료=과학기술정보통신부 제공).

우선 '악성코드' 분야 데이터셋(약 4억 건)은 ▲백신 진단명(Anti-virus) ▲속성정보(제작도구, 유포‧경유지 등) ▲사회적 관심사항(코로나, 랜섬웨어, 비트코인 채굴 등) 핵심어를 기반으로 구축됐다. '침해사고' 분야 데이터셋(약 4억 건)의 경우 ▲침해 행위(시스템, 네트워크, 장비 등) ▲침해사고 단계별(정보 수집, 실행, 정보 유출 등) ▲최신 침해사고 각본 등을 기반으로 한다.

구축된 AI 데이터셋은 공공·통신·게임·보안기업 등 국민 생활과 밀접한 기업·기관을 대상으로 침해 대응 실효성 검증을 통해 악성코드 분석률·탐지 정확도 제고 등의 개선효과도 확인됐다. 일례로 넥슨코리아는 AI 기반 악성코드 탐지모델을 도입해 내부 생성 데이터 악성 여부 분석률이 50%에서 100%로 향상됐고, 핵툴(Hacktool) 분석‧탐지 자동화로 전문인력 투입 비용도 크게 감소됐다. 

인공지능(AI) 데이터셋 구축 과정. (자료=과학기술정보통신부 제공).

사이버 위협이 계속 고조되고 있는 가운데 최근 정부는 '사이버보안'을 핵심 국정과제로 삼고 '사이버보안 10만 인재 양성' 등 구체적 이행 계획을 내놓고 있다. 김정삼 과기정통부 정보보호네트워크정책관은 "지능화‧고도화되는 사이버 위협에 대응하기 위해 사이버 보안 분야에도 AI 기술 활용 증가가 예상되는 상황으로 이번에 구축된 데이터셋이 민간 부분의 사이버 대응능력을 한 단계 도약시킬 수 있는 마중물이 될 것"이라고 말했다.

또 김 정책관은 "AI 활용을 위해서는 양질의 데이터 확보가 필수적"이라며 "앞으로도 정부는 양질의 사이버보안 분야 AI 데이터셋을 확대 구축할 계획"이라고 밝혔다. 이어 그는 "AI 기반 보안 솔루션이 공공·민간부문에 접목되고 다양한 수요가 창출되는 환경이 필요하다"며 "타 산업분야 적용 확대와 미래 보안기술 개발 촉진으로 이어질 수 있도록 더욱 노력하겠다"고 강조했다.

21일 개최된 '2021년 사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 김휘강 고려대학교 교수가 발표하고 있는 모습. (사진=한국인터넷진흥원 유튜브 채널 캡처). 
21일 개최된 '2021년 사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 김휘강 고려대학교 교수가 발표하고 있는 모습. (사진=한국인터넷진흥원 유튜브 채널 캡처). 

이날 성과 공유회에서 김휘강 고려대학교 교수는 '데이터 드리븐 시큐리티(Data-driven Security)'에 대해 "침입이나 이상징후를 탐지하는 데 있어 과거처럼 단순히 규칙 기반이나 휴리스틱에 의존하지 않고 데이터 분석 결과에 입각해 판정하는 정보보안체계"라고 정의했다. 분석가의 주관적 견해가 의사결정에 개입될 여지를 최소화해 객관적인 의사결정이 가능하다는 장점이 있어 금융·안전 분야에서 다양한 인터넷 서비스 보안으로 확대되고 있는 추세다. 

김휘강 교수는 '데이터 드리븐 시큐리티'가 시대에 부합하는 개념으로 보고 한 단계 더 나아가 "학계에서도 대회에서 사용된 데이터셋을 일종의 '공인 데이터셋'으로 간주해 후속 연구에 적극 활용할 필요가 있다"고 강조했다. 산·학·연 모두 적극적으로 데이터셋을 공유하는 문화를 만들 수 있도록 노력해 AI·기계학습(ML)과 '데이터 드리븐 시큐리티'가 활성화되길 기대한다는 제언이다.  

AI타임스 윤영주 기자 yyj0511@aitimes.com

[관련기사] 이종호 과기정통부 장관 취임…"민간기업 지원 확대해 디지털 강국 이루겠다"

[관련기사] 기업의 최정예 정보보호 전문인력 양성, KISA가 나선다

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지