(사진=네이버)
(사진=네이버)

‘하이퍼클로바X’의 세부적인 기술 정보를 담은 테크니컬 리포트가 공개됐다. 하지만 여기에는 벤치마크에서 소형언어모델(sLM)을 상대로 높은 점수를 얻었다는 내용이 주를 이루고 있으며, 매개변수나 학습 데이터에 관한 내용은 빠져 있다.

네이버클라우드(대표 김유원)는 4일 하이퍼클로바X의 테크니컬 리포트를 온라인 아카이브를 통해 발표했다.

테크니컬 리포트란 학습 방법이나 성능 등 AI 모델의 세부 정보를 소개하는 논문이다. 오픈AI, 구글과 같은 빅테크 기업들도 자체 AI의 특징을 테크니컬 리포트를 통해 설명하고 있다.

네이버 관계자는 “하이퍼클로바X 출시 이후 대화형 AI 서비스 ‘클로바X’와 클라우드 기반 개발 도구 ‘클로바 스튜디오’ 등으로 개인 및 기업 사용자의 수요와 성능을 확인할 수 있었다”라며 “정확한 성능 및 모델의 특징을 대중에 알리기 위해 테크니컬 리포트를 공개하는 것”이라고 밝혔다.

이번 테크니컬 리포트에는 하이퍼클로바X가 ▲대형 모델 'HCX-L' ▲소형 모델 'HCX-S' 두가지로 구분되며, 가독미세조정(SFT) 및 인간 피드백을 통한 강화 학습(RLHF) 등으로 성능을 강화한 것으로 나타났다. 그러나 대형 및 소형 모델의 매개변수가 얼마인지 밝히지 않았다.

또 학습 데이터에 대해서는 대부분 한국어, 영어, 코드 데이터로 구성돼 있다고만 설명했다. 대신 양질의 사전학습 데이터 구축을 위해 매우 짧거나 반복적인 저품질 문서는 데이터셋에서 제외했고, 개인정보가 포함된 데이터도 삭제했다고 전했다.

네이버클라우드는 한국어, 영어, 수학, 코딩, 상식, 사실성, 안전성 등을 보여주는 벤치 마크 결과에 초점을 맞췄다. 

주비교 대상은 ▲한국어 모델인 '폴리글롯(1.3B, 5.8B, 12.8B)' ▲오픈 소스인 '팰컨(7B, 40B)' ▲메타의 '라마 2(7B, 13B, 70B)' ▲업스테이지의 '솔라 10.7B' 등이다. 대부분 매개변수가 적은 소형언어모델(sLM)이다.

▲한국어 능력을 측정하기 위해 ‘KMMLU’ ▲글로벌 언어 이해 능력 평가 ‘MMLU’ ▲마이크로소프트가 개발한 AI 성능 평가 ‘AGI이밸(AGIEval)’ 등 6개의 벤치마크 점수를 종합했다. 

그 결과 하이퍼클로바X는 대부분 높은 점수를 획득했다.

특히 한국어, 일반상식, 수학, 코딩 부문에서는 14개 모델 중 1위를 기록했다. 이는 특정 국가 언어 능력뿐만 아니라 상식, 코딩 등의 해결력까지 갖춘 '소버린 AI'로서의 경쟁력을 입증한 것이라고 강조했다.

또 ‘다국어 능력’에서도 다른 오픈 소스 모델보다 좋은 성적을 거둬, 학습 데이터의 대부분을 차지하는 한국어와 영어 정보를 활용해 제3의 언어로 추론하는 능력을 갖춘 것이 확인됐다고 전했다.

한국어-일본어, 한국어-영어 기계 번역 평가에서도 10개 모델 중 최고를 기록했다

벤치마크 결과 (사진=네이버클라우드)
벤치마크 결과 (사진=네이버클라우드)

한편 벤치마크 비교 대상으로 꼽힌 업스테이지 관계자는 “이런 논문이 많이 나올수록 자체 모델의 객관적인 성능을 평가해 볼 수 있어 매우 환영하는 입장”이라고 밝혔다.

“하지만 비교 평가 영역마다 조금씩 다른 버전(솔라 API, 오픈소스 등)으로 선정된 것 같다”라며 “논문에서 하이퍼클로바는 HCX-S, HCX-L 등 다양한 버전이 있는 것 같은데, 정확히 어떤 사이즈일지 궁금하고 정확히 어떻게 비교하면 좋을지 의문이 들기도 한다”라고 덧붙였다. 

유강민 네이버클라우드 리더는 “하이퍼클로바X의 다국어 추론, 기계 번역 능력을 측정한 실험은 지역 또는 문화권 특화 목적으로 개발한 AI가 해당 국가 언어 외에도 여러 언어에서 일정 수준 이상의 능력을 갖출 수 있음을 실증한 것”이라고 말했다.

또 “특정 문화권에 더 적합한 배경 지식과 함께 다국어 능력까지 보유해 한층 활용도가 높은 소버린 AI의 가능성을 하이퍼클로바X가 보여주고 있다”라고 전했다. 

장세민 기자 semim99@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지