지난해 코쿼드(KorQuAD) 1.0과 2.0에서도 1위 기록
인공지능(AI)의 혁신에 대한 기업의 의지 필요해
MS MARCO Document 연구에 당분간 집중할 예정

삼성전자만 AI 기술 개발에 주력해 성과를 내고 있는 것은 아니다. 지난달 삼성SDS 연구팀이 글로벌 AI 자연어이해 경진대회 'MS MARCO(Microsoft Machine Reading Comprehension) Document'에서 랭킹 1위를 기록했다.

MS MARCO가 삼성SDS 연구팀의 1위 달성을 트위터를 통해 알렸다. (사진=MS MARCO 트위터)
MS MARCO가 삼성SDS 연구팀의 1위 달성을 트위터를 통해 알렸다. (사진=MS MARCO 트위터)

 

삼성SDS는 AI, 클라우드, 블록체인 등 IT 기술 기반으로 제조, 금융, 물류, 리테일 등  비즈니스 영역에서 솔루션을 제공하는 B2B(기업 간 전자 상거래) 기업이다.

MS MARCO는 2016년 세계 AI 컨퍼런스 NIPS(NeurIPS)에서 기계의 독해 및 질의응답에 대한 기존 데이터세트(Dataset)의 약점 극복을 목적으로 만들어졌다. 기존 데이터 세트의 약점은 ▶일관성 부족 ▶질문과 관련이 없는 응답 ▶구체적이지 않은 응답 등이 있다. 데이터 세트로 마이크로소프트 웹 검색 엔진인 빙(Bing)의 사용자 정보를 익명화해 활용했다.

MS MARCO Document는 질문이 주어졌을 때, AI 학습 모델이 320만 문서 풀(pool)에서 검색해 관련성이 높은 응답 100개(Relavance Ranking Top 100)를 뽑는다. 질문에 대한 답변 상위 100개를 *MRR(Mean Reciprocal Rank metric)을 통해 성능을 측정한다.

  *MRR ; 가장 상위에 오른 콘텐츠의 위치만을 고려해 점수를 계산한다. 기계 학습 모델이 관련도가 높다고 생각한 콘텐츠가 실제로 얼마나 상위에 올라가 있는 지를 평가한다.

MS MARCO Document에는 지난해 코쿼드(KorQuAD) 1.0과 2.0, HotpotQA Fullwiki Setting에서 거둔 연구 성과를 바탕으로  R&D 담당 권순환 프로와 프로젝트 매니저 이민영 프로가 지난달 참여했다.

  **KorQuAD 1.0은 AI가 제시된 문제에서 제한된 수의 내용을 읽고 정답을 찾는 시험. KorQuAD 2.0은 한국어 위키백과에서 답을 찾는 방식으로 높은 문장 이해도를 바탕으로 답변을 요구한다. HotpotQA Fullwiki Setting은 카네기 멜론, 스탠퍼드, 몬트리올 대학이 만든 데이터 세트 기반 글로벌 AI 독서 대회다.


삼성전자에 뒤지지 않는 성과를 내는 삼성SDS의 행보에 주목하며 AI 타임스는 권순환 프로(이하 권프로)와 인터뷰를 가졌다. 권프로는 "중국 기업 DXM이나, Bosch Center for AI 등 다수의 해외 회사들아 참여한 대회에서 한국인 팀 최초로 1위를 했다는 점에서 뿌듯하다"라고 소감을 밝혔다.

 

연구에 몰두하는 권순환 프로. (사진=정윤아 기자)

권프로는 지난 연구 과정을 회상하며, MS MARCO 데이터에 맞는 통계 특성을 파악하는 부분과 자원 집약적인 머신 러닝 특성상 효율적인 자원 활용 방법 마련에 어려움이 많았다고 설명했다.

Q. 참여하신 MS MARCO Document에서 1위 할 수 있었던 비법은?

여러 개의 타사 학습 모델에 버금가는 자사의 단일 학습 모델 성능을 기반으로 정확한 응답 도출이 가능해 1위를 할 수 있었다고 생각합니다.

 

Q. 1위 달성 후 다른 도전 목표나 연구 방향이 있다면?

아직은 MS MARCO Document에 대한 연구가 이제 시작된 상황이기 때문에 당분간은 해당 문제에 집중할 예정입니다.

삼성 SDS 연구팀이 한국인 팀 최초로 MS MARCO Document Ranking에서 1위에 올랐다. (사진= MS MARCO 트위터)
삼성SDS 연구팀이 한국인 팀 최초로 MS MARCO Document Ranking에서 1위에 올랐다. (사진= MS MARCO 트위터)

Q. 지난해 코쿼드(KorQuAD: Korean Question Answering Dataset) 1.0, 2.0에서도 1위에 올랐다. 꾸준히 뛰어난 성과를 내는 중인데, 인재 영입에 비법은?

열정을 가진 연구원들이 역량을 키우고 발휘할 수 있는 좋은 연구 환경을 만드는 것이 제일 중요하다고 생각합니다. 그리고 다양한 전공 분야의 지식이 삼성SDS에서 필요로 하는 전 분야의 AI 연구에도 크게 도움이 된다고 봅니다.

 

이번 대회에 함께 참여한 이민영 프로. (사진=정윤아 기자)
이번 대회에 함께 참여한 이민영 프로. (사진=정윤아 기자)

Q. B2B 기업 특성상 상당수 고객사(클라이언트)가 새로운 솔루션 도입을 꺼리는 보수적 경향이 있을 것 같다. AI를 비롯한 혁신적 연구나 변화를 시도하기 어렵진 않은지 궁금하다.

혁신에 대한 필요와 의지는 오히려 기업에서 더욱 크다고 생각합니다. AI를 통한 혁신은 일회성이 아닌 지속적으로 발전하기 위해 필요한 중요한 단계이고, 삼성SDS의 AI 연구를 통해 이를 이루고자 합니다.

 

Q. 삼성SDS의 사업영역 상당 부분인 SI(System Integration) 영역도 인공지능이나 로봇으로 대체될 수 있지 않을까 생각이 든다. 즉, 삼성SDS가 AI 연구개발 성과를 이루면, 결국 소속 개발자들의 일자리가 줄어들텐데, 그런 관점에서 삼성SDS 가 바라본 인공지능 연구 개발의 지향점은?

사람과 인공지능이 상호 협동하여 발전해야 한다고 생각합니다. AI 기술을 통해 기존에 하지 못했던 일을 새롭게 할 수 있는 변화를 만들고, 개발자들의 창의성이 더욱 빛을 발할 수 있는 기반을 만드는 데에 AI 기술들이 도움을 줄 것이라고 봅니다.

Q. 마지막으로, LG CNS, SK C&C 등 타 그룹 회사도 AI 연구를 활발히 하고 있다. 삼성SDS만의 차별점은?

세계 최고 수준의 연구와 실제 적용을 함께 하면서 연구원들과 함께 성장하고자 합니다. NeurIPS, AAAI, CVPR 등 학계에 연구 논문 제출을 통해 글로벌 연구 트렌드의 빠른 발전 속도에 맞춰 앞서갈 수 있도록 노력하고 있습니다.

한편, 한국어 버전 챗봇이 꾸준히 개발 중이지만 다른 언어에 비해 개발 속도가 느리다. 한국어는 어순이 중요한 영어나 중국어와 달리 단어의 원형에 접사가 붙어 의미와 문법적 기능이 부여된다. 학습 모델이 원형 추적 작업을 추가로 필요하기 때문에 기술 개발에 어려움이 크다. (관련 기사)

한국어는 영어처럼 전 세계 공용어가 아니다. 한국어 자연어 학습 모델은 국내 기업만이 관심 갖고 해낼 수 있는 일. 삼성SDS의 향후 자연어 이해 관련 기술 개발이 한국어 이해, 나아가 자연어 처리까지 어떠한 형태로 발전을 이룰지 자연어 이해 관련 R&D 업계에서 주목하고 있다.

AI타임스 정윤아 기자 donglee0408@aitimes.com  

[관련 기사] 자연어처리의 민주화인가...GPT-3 독점에 맞선 오픈소스 그룹 새 모델 공개
[관련 기사] 주민식 삼성SDS 박사 "AI 상용화, 질 좋은 데이터 확보에 답 있다"

키워드 관련기사
  • AI 강조한 차세대 'Arm v9' 아키텍처'…"머신러닝·DSP 성능 향상"
  • 크라우드웍스, AI 의료 분야 데이터 라벨링 기술 고도화 나서
  • 국내 기업 유럽 진출 쉬워진다… 개인정보보호체계, 유럽 GDPR과 동등 수준으로 인정받아