(사진=투디지트)
(사진=투디지트)

투디지트가 오픈 Ko-LLM 리더보드에서 1위를 탈환했다. 특히 일주일 새 평균 점수를 7점 이상 끌어올리는 등 비약적인 성능 향상으로 관심을 모으고 있다.

자연어이해(NLP) 전문 투디지트(대표 박석준)는 오픈 Ko-LLM 리더보드에서 평균 60.59로 1위를 차지한 지 일주일 만에 67.77점으로 다시 정상에 올랐다고 19일 밝혔다.

업스테이지와 한국지능정보사회진흥원(NIA)이 공동 주최하는 한국어 언어모델 평가지표 '오픈 Ko-LLM 리더보드'에는 현재 1200여개 모델이 등록된 상태다. 지난해 9월 평균 50점 수준에서 시작해 수개월 동안 성능을 끌어 올렸으나, 평균 60점 돌파 모델은 한동안 등장하지 않았다.

하지만 지난 11일 투디지트가 최초로 60점 장벽을 뛰어넘으며, 한국어 언어모델 전반의 수준 향상 가능성을 제시했다. 실제로 이후 여러 기업이 앞다퉈 도전한 결과, 점수는 꾸준한 상승 흐름을 보였다.

이 가운데 투디지트는 잠시 정상을 내줬다가 19일 자로 1위(67.77) 복귀는 물론 2위(65.38점)까지 차지했다. 일주일 전보다 무려 7.18점이 오른 결과로, 일반적으로 몇달이 걸릴 성능 향상을 단 1주일 만에 이뤄낸 셈이다.

박석준 투디지트 대표는 "회사가 한국어 언어모델 순위 경쟁에 도전한 것도 불과 한달 남짓"이라며 "꾸준히 축적된 미세조정 노하우 덕분"이라고 말했다. 

투디지트는 이전부터 자연어 처리(NLP) 관련 원천기술 연구에서 두각을 보였다. 2022년 4월에는 전 세계 대상 인공지능(AI) 기계독해 대회 'SQuAD 2.0'에서 아마존, 구글, 페이스북, 마이크로소프트 등 빅테크를 앞선 7위를 기록했다.

같은 해 6월에는 딥마인드 주관 AI 언어 이해 평가 대회 'GLUE'에서도 세계 14위를 차지했다. 국내 기업과 기관 중 최고 성적이었다.

특히 국내 스타트업의 인프라 한계를 극복하기 위해 '독해'나 '문해력' 등 세부 카테고리에 특화한 미세조정 및 학습 원천기술에 초점을 맞춰 왔다고 전했다.

구글 등 빅테크의 사전학습모델을 사용해 데이터셋의 문제는 해결할 수 있었지만, 소스 코드 등 구체적인 부분에 대해서는 직접 노하우는 축적해야만 했다는 설명이다. 

박 대표는 "그 결과 자연어 기반 기계학습 노하우를 습득, 주요 소스였던 영어 모델을 넘어 한국어 모델 학습'도 충분히 해낼 수 있겠다는 자신감을 얻었다."라고 전했다.

그는 "예상대로 한국어 평가에서도 좋은 성적을 얻을 수 있었다"라며 "추론, 상식, 언어이해, 환각방지, 한국어상식생성 등 세부 평가 지표에서 도적 점수를 얻을 수 있었던 이유도 다양한 NLP 대회에 참여하며 쌓아온 역량 덕분"이라고 말했다.

구체적으로 데이터셋 전처리 기술로 입력 데이터를 정제하고 모델에 맞게 데이터를 정제하거나 해당 테스크와 적합하지 않는 데이터를 제거함으로써 모델의 학습을 효율적으로 진행했다고 설명했다.

또 감독 미세조정(SFT)과 직접 선호 최적화(DPO) 학습 매개변수를 조정, 도메인에 최적화된 학습으로 모델이 높은 성능을 발휘할 수 있도록 했다고 소개했다.

박석준 대표는 "앞으로도 애플리케이션 역량과 함께 한국어 언어모델 생태계를 활성화할 수 있도록 노력하겠다"라고 밝혔다. 실제로 리더보드 1위 모델의 미세조정 소스 코드와 데이터셋을 전부 공개한다고 전했다. 

"이는 언어모델 학습 및 개발의 진입 장벽을 낮추는 기본서의 역할과 같다"라며 "이를 이용해 바로 좋은 성적을 거두려는 목적이 아니라, 일종의 '미세조정의 정석'과 같은 설명서를 제시하려는 것"이라고 의도를 밝혔다. 

오픈 Ko-LLM 리더보드를 주최 중인 업스테이지도 의미를 부여했다.

"개별 기업의 정보나 모델에 대한 자세한 정보를 습득할 수는 없어 정확한 평가를 내놓기는 어렵다"라며 "하지만 국내 LLM 생태계 확장이라는 의도에 맞게 최근 1위 모델의 점수가 지속적으로 올라가는 추세로, 현재의 '상향평준화' 현상 자체를 의미 있게 보고 있다"라고 전했다. 

한편 투디지트가 공개한 AI 모델과 데이터는 깃허브에서 확인할 수 있다.

장세민 기자 semim99@aitimes.com

키워드 관련기사
  • 투디지트, 한국어 언어모델 평가 1위 등극...첫 60점 돌파
  • [3월 2주] 투디지트, 한국어 모델 평가 사상 첫 평균 60점 돌파
  • 딥노이드, '오픈 Ko-LLM 리더보드' 1위 등극...1주 만에 평균 1점 상향