박찬준 업스테이지 테크니컬 리더 인터뷰

박찬준 업스테이지 테크니컬 리더가 회사 팻말을 들고 포즈를 취하고 있다. 업스테이지는 100% 재택 근무를 실시, 별도의 사무 공간이 없기 때문이다.. 
박찬준 업스테이지 테크니컬 리더가 회사 팻말을 들고 포즈를 취하고 있다. 업스테이지는 100% 재택 근무를 실시, 별도의 사무 공간이 없기 때문이다.. 

"허깅페이스 리더보드 세계 1위로 대형언어모델(LLM) 기술력은 증명했습니다. 이제 레퍼런스를 바탕으로 수익성을 증명하는 것이 업스테이지의 넥스트 스텝입니다."

업스테이지(대표 김성훈)는 지난 1일 글로벌 머신러닝 플랫폼 허깅페이스의 '오픈 LLM 리더보드'에서 오픈AI와 메타, 스태빌리티 AI 등 세계적인 기업을 뛰어넘어 1위를 차지해 화제가 됐다. 이번 성과를 이뤄낸 업스테이지 LLM팀은 이전부터 'AI 올림픽'인 캐글 경진대회와 국제학회 논문상 등을 휩쓸며 국제적으로 이름을 날리던 멤버들이 포진해 있다.

그 중심인 박찬준 업스테이지 테크니컬 리더를 만나봤다. '알파고'가 이름을 알리기도 전인 대학 1학년 때부터 자연어처리(NLP)를 접한 뒤 시스트란과 고려대학교 자연언어처리 연구실 등을 거치며 기계번역 박사학위까지 취득한 박찬준 리더는 현재 LLM 개발과 기업 생산성 향상에 기여하는 '도큐먼트 AI' 기술을 집중적으로 개발하고 있다. 

그는 업스테이지 LLM팀이 지난 7월 TF팀으로 신설, 불과 한달 남짓만에 일을 냈다고 말문을 열었다.

물론 한달 만에 자체 LLM을 만든 것은 아니다. 1위를 차지한 모델은 자체 LLM이 아니라, 메타의 오픈소스 '라마2'를 미세조정하고 인스트럭선 튜닝한 결과다. AI 모델을 도입하려는 기업 입장에서는 이처럼 기존 모델을 '맞춤형'으로 개발하는 것이 중요하며, 물론 여기에는 업스테이지만의 노하우와 업력이 고스란히 담겨 있다. 

"노하우를 다 공개할 수 없지만, 한가지 확실하게 밝힐 수 있는 것은 '데이터의 중요성'"이라고 밝혔다. "어떤 데이터를 활용해야 하는지를 넘어, 모델과 데이터의 최적 조합을 찾기 위해 수많은 실험으로 검증을 거쳐야 한다"고 말했다.

몇주 만에 수많은 실험이 가능했던 것은 모델의 빠른 구동을 가능케하는 코드 변환이나 경량화 기술 등 업스테이지 고유의 파이프라인 때문이라고 밝혔다. "이것이 우리만의 자산이자 1위를 차지할 수 있었던 원동력"이라고 강조했다. 

그리고 "이제는 이런 기술력을 기반으로 기업에 AI 모델을 구축해 주는 B2B 사업 확장에 나선다"며 "타깃은 '프라이빗 LLM' 시장"이라고 말했다. 

실제 1위 수상 소식 이후 업스테이지는 수많은 기업으로부터 미팅 요청을 받았다. 국내는 물론 해외 기업도 포함돼 있다. LLM에 대한 관심과 수요는 세계적 추세이기 때문이다.

박찬준 리더는 "아직은 LLM 구축 사업으로 크게 성공했다는 기업은 나오지 않았다"며, 기업 역시 오픈AI나 구글 모델이 좋은 건 알겠는데 과연 우리 회사에 적합한 것인지에 대해 의문 반 호기심 반이라고 분위기를 전했다.

"결국 누가 먼저 고객의 니즈를 정확히 파악해 필요한 모델을 내놓는가의 싸움이 될 것"이라고 예측했다. 기업에 맞는 LLM 유스 케이스(use case)를 발굴, 기업이 필요로 하는 점을 정확하게 반영하는 것이 중요하다는 말이다. 프라이빗 LLM이란 이런 의미를 담고 있다. 

LLM 팀도 엔진 개발팀과 애플리케이션 팀으로 세분했다. "어떻게 하면 좋은 LLM을 만들어 낼 수 있을까 하는 모델링 고민과 어떻게 하면 좋은 데이터셋을 만들 수 있을까 하는 데이터, 그리고 실제 운용과 평가까지 LLM 관련 모든 그리고 핵심적인 부분을 개발하고 연구한다"고 설명했다. 

자체 LLM을 구축하기로 결정하고, 학습용 한국어 데이터 라이선스를 확보하기 위해 '1T 클럽'을 발족한 것도 같은 맥락에서다. 1T 클럽은 ‘1트릴리온(1조) 토큰 클럽’의 준말로, 텍스트나 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 제공하는 파트너사로 구성한다.

이는 한국어 데이터의 부족 문제와 저작권 해결은 물론 국내 기업에 특화한 한국어 데이터 학습으로 다양한 분야의 기업에 고성능의 프라이빗 LLM을 활용하도록 발판을 만드는 일이다.

 박찬준 리더가 허깅페이스 1위 과정을 설명하고 있다. 
 박찬준 리더가 허깅페이스 1위 과정을 설명하고 있다. 

하지만 회사의 목표는 국내를 넘어 세계 최고 AI 기술을 개발하는 것이라고 밝혔다. "회사의 미션은 세상 사람 모두 AI로 인해 누릴 수 있는 혜택을 제공하는 것(Making AI Beneficial)"이라고 전했다.

단순히 듣기 좋은 슬로건이 아닌, 실현가능한 목표라는 점도 강조했다.

"우리는 국내 기업이지만, 이미 글로벌 기업과 견주는 실력을 가진 사람들이 모인 곳이며, 이를 실제 증명해낸 곳"이라고 말했다. 업스테이지는 회사 설립 초기부터 별다른 프로젝트가 없어도 꾸준히 국내외의 핵심 개발자를 모아왔다. 네이버, 카카오, 삼성전자는 물론 마이크로소프트, 아마존 같은 물론 글로벌 빅테크 출신도 다수다. 이렇게 모인 인원이 100명을 넘었다.

그는 다시 한번 "우리에게 글로벌이라는 단어는 '도전'이라는 느낌이 아니다"며 "업스테이지만의 노하우와 기술력을 바탕으로 제작한 LLM이 세상에 진정한 임펙트를 줄 수 있도록 할 것"이라고 포부를 밝혔다. 

이주영 기자 juyoung09@aitimes.com

키워드 관련기사
  • 업스테이지, LLM 구축 앞서 저작권 해결 나섰다
  • 뤼튼·업스테이지 등 6개사, 국내 첫 '생성 AI 스타트업 협회' 추진
  • 업스테이지, 챗GPT 넘어 허깅페이스 LLM 1위 탈환