네이버, 한국어판 GPT-3 ‘하이퍼클로바’ 최초 공개

학습 언어 97%가 한국어...영어에 특화된 GPT-3와 달라
모델 크기서 GPT-3 추월...파라미터 2040억개 사용
비지도학습으로 약 반년 만에 초대규모 AI 개발 완료
개발자 아닌 일반인도 사용 가능...일상 대화·자동 글 창작·정보 요약 등

네이버가 한국어 기반 초대규모 인공지능(AI) ‘하이퍼클로바(HyperCLOVA)'를 전격 공개했다. 국내 기업 간 초대규모 인공지능(AI) 개발 경쟁이 한창인 가운데 가장 먼저 개발 성과를 공유한 것.

네이버(대표 한성숙)는 25일 개최한 ‘NAVER AI NOW’ 온라인 컨퍼런스에서 자체 개발한 한국어판 GPT-3 하이퍼클로바 개발 성과를 공식 발표했다.

영어 이외 언어 활용이 어려운 오픈AI GPT-3와 달리 한국어에 특화된 것이 하이퍼클로바의 차별점이다. 하이퍼클로바가 학습한 한국어 데이터 규모는 5600억 토큰으로 GPT-3보다 무려 6500배 크다. GPT-3가 학습한 언어 중 영어가 93%를 차지한다면, 하이퍼클로바에서는 학습 언어 97%가 한국어다.

모델 크기에서도 국산 AI가 GPT-3를 추월했다. 하이퍼클로바의 파라미터(매개변수)는 2040억개로 GPT-3의 1750억개를 넘어선다.

반년이라는 짧은 시간 내 초대규모 AI를 개발할 수 있었던 비결은 비지도학습이라는 AI학습법에 있다. 해당 기술 도입으로 AI 학습에 필요한 데이터를 일일이 개발자가 만들 필요가 없어지면서 단기간 내 대규모 데이터 학습이 가능해졌다.

대규모 AI 개발에 필수적인 슈퍼컴퓨팅 인프라로는 지난해 10월 도입한 ‘엔비디아 DGX 슈퍼팟(SuperPod)’을 사용했다. 해당 제품 성능은 700페타플롭스(PF)로 국내 기업이 현재 사용 중인 컴퓨팅 인프라 가운데 가장 뛰어나다.

하이퍼클로바 기술은 연구 영역에만 머물지 않고 빠르게 상용화될 것으로 보인다. 네이버는 하이퍼클로바를 적용한 10개 서비스를 빠른 시일 내 발표할 계획이다.

상용화 사례는 하이퍼클로바 공개 전 이미 밝혀진 바 있다. 이달 6일 네이버는 검색 서비스에 하이퍼클로바를 적용해 새로운 기능을 선보였다. 해당 기능에서는 사용자가 검색어를 잘못 입력하는 경우 올바른 단어로 전환하거나 적절한 검색어를 추천해준다.

AI 개발자 이외 AI를 잘 알지 못하는 일반인을 하이퍼클로바 사용자로 강조한 점도 주목할 만하다. 상품 판매에 도움이 되는 마케팅 문구를 AI가 자동 생성해 중소사업자(SME)를 도울 수 있다. 학생들을 위해 공부 내용을 빠르게 요약해주고 질문에 답변해주는 AI도 개발 가능하다.

일상 속에서 AI가 더욱 많이, 널리 사용되길 바랍니다.

-정석근 네이버 클로바 CIC 대표

◆단일 문제에 맞춘 AI 개발 패러다임 전환...AI 모델 플랫폼화

네이버가 초대규모 AI를 개발한 중요한 이유 중 하나는 AI 개발 효율성을 높이기 위해서다. 해결을 원하는 문제 각각에 맞춰 데이터를 수집, 정제하는 기존 AI 개발 패러다임을 뒤집겠다는 것.

정석근 네이버 클로바 CIC 대표는 기조연설에서 “기존 AI 개발 방법은 결과물을 얻을 때까지 긴 시간, 방대한 리소스가 필요했다. 특정 문제에만 특화돼 다른 문제에 활용하기도 어려웠다”며 하이퍼클로바 개발 계기를 설명했다.

각 문제에 맞춘 AI 모델을 개발하는 대신 하나의 큰 모델을 만든 후 다양한 문제에 적용하겠다는 의미다. AI 모델 자체를 플랫폼화 혹은 일반화한다고 볼 수 있다.

하이퍼클로바와 같은 초대규모 AI가 불러올 새로운 AI 개발 패러다임(사진=행사 캡처)

기존 업무를 짧은 시간과 적은 리소스로 수행할 수 있음은 물론, 기존에 할 수 없던 새로운 일도 가능하다. 문서 요약, 번역, 대화, 상식 퀴즈에 대한 대답 등을 보다 정확하고 자연스럽게 수행한다.

정 대표는 “반도체 기술 발전 양상을 보면 집적도 수준이 향상될 때마다 새로운 기술과 디바이스가 시장에 나온다. 반도체에서 집적도는 AI에서 모델 크기, 파라미터 수다. 데이터가 무한하다는 가정 하에 파라미터 수가 증가할수록 풀 수 있는 문제도 확장되는 것으로 확인됐다”고 강조했다.

정석근 네이버 클로바 CIC 대표가 반도체 집적도 향상 트렌드와 AI 모델 파라미터 수 트렌드 유사성을 설명했다.(사진=행사 캡처)

◆네이버 포털 내 다양한 데이터 활용...개인정보는 제거·비식별화

네이버는 하이퍼클로바 개발을 위해 5600억개 토큰 한국어 대용량 데이터를 구축했다. 이는 네이버 뉴스 50년치, 네이버 블로그 9년치 데이터에 해당하는 규모다.

검색, 대화, Q&A, 요약 등 각기 다른 기능을 수행해야 하는 만큼 활용 데이터 종류도 다양하다. 일상 언어, 사전과 같은 객관적 사실 데이터, 백과사전 내 전문 지식을 모두 포함했다.

네이버 포털 내 검색이 허용된 뉴스, 카페, 블로그, 지식인, 웹문서 글을 데이터로 사용하기도 했다. 국립국어원이 만든 ‘모두의 말뭉치’와 같은 기존에 검증된 자연어 데이터도 추가했다.

강인호 네이버 서치 CIC 책임리더는 “여러 언어 생성 작업을 수행하기 위해 치우치지 않는 다양한 언어 데이터를 수집했다. 한국 내에서 모을 수 있는 데이터 전반을 가져와서 품질이 좋은 순서대로 수집하는 방식을 거쳤다”고 말했다.

질 좋은 정보를 선별하는 작업도 필요했다. 신뢰성과 인지도가 높은 출처를 가진 데이터 위주로 상위 품질 문서에 포함했다. 이를 위해 대화문에 화자ID나 카페명을 추가하는 것처럼 정보마다 출처를 구분했다. 개인정보는 제거하거나 비식별화 처리했다.

저품질 문서 필터링 강도도 높여 의미 없는 단어 나열, 자소단위 반복, 비속어 등을 제거했다. 해당 표현이 많으면 사용 데이터에서 제외했다.

강 책임리더는 “선별, 정제 과정을 거쳐 총 1.96TB 규모 데이터셋을 구축했다. 이렇게 만든 AI 모델로 한국 역사 퀴즈 풀기, 지방 사투리 변환, 욕설 순화 등 기능을 수행하는데 성공했다”고 전했다.

향후 네이버는 한국어 외 다른 언어에 대해서도 기능을 수행할 수 있도록 하이퍼클로바를 개선할 계획이다. 또한 언어뿐만 아니라 영상, 이미지도 이해하는 멀티모달(Multimodal) AI를 개발한다.

◆일상 대화·자동 글 창작·정보 요약·데이터 생성 4개 기능

가까운 시일 내에 하이퍼클로바가 선보일 기능은 크게 4가지다. ▲맥락을 이해하고 공감을 표하는 자연스러운 대화 ▲창작을 돕는 자동 글쓰기 ▲핵심 정보 요약 ▲데이터 생성이다.

먼저 하이퍼클로바는 기존 챗봇보다 훨씬 자연스러운 대화가 가능하다. 대화 맥락 내 다양한 디테일 요소를 인식하고 사용자에게 감정을 표현하기도 한다.

과거 대화 맥락을 이해하는 만큼 사용자는 AI에게 모든 문장을 완벽하게 구사해 의도를 전달할 필요가 없다.

창작자가 글을 쓰기 전 예시 문장을 제시해 전초 작업을 돕기도 한다. 신조어와 축약어까지 포함해 여러 유형의 글을 학습한 만큼 창의적이면서 대중적인 글귀를 제시한다. 특정 키워드 몇 가지를 선택하면 상품 소개 문구를 만들어주는 식이다.

성낙호 책임리더가 하이퍼클로바가 만든 문구 예시를 설명 중이다(사진=행사 캡처)

AI 정보 요약 기능은 학생들에게 특히 유용할 것으로 기대된다. 결과물을 내부 분석한 결과, 기존 AI 모델보다 내용 적합도가 높고 자연스럽다는 평가다.

마지막 기능은 데이터 생성으로 지도학습에 들었던 데이터 구축 비용을 크게 줄인다. 사용자 발화 의도마다 코퍼스(말뭉치)를 제작해 높은 수준의 적합도를 가지는 언어 데이트를 생성 가능하다.

성낙호 성낙호 네이버 클로바 비즈 AI 책임리더는 “대화 시나리오 구축 시 기존 AI 모델을 사용할 때보다 생산성이 10배 이상 향상될 것으로 기대한다”고 전했다.

AI타임스 박성은 기자 sage@aitimes.com

“국내 대학들, AI 산학협력 방식 대전환한다” 서울대 함종민 센터장 인터뷰

구글 I/O 개막, 버텍스AI·람다·멈 공개‥ 진보한 AI 선보여

LG AI연구원, 초거대 AI 개발에 1억달러 투입...올 하반기 공개

박성은 기자 AI는 마법이 아닌 과학입니다 sage@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기