오픈AI 및 구글과 경쟁하는 오픈 소스 언어 모델 출시
오픈AI의 GPT-3과 동등한 1,760억 개의 매개변수 제공
500개 소스에서 3,410억 단어 데이터 세트를 직접 선택
편향과 유해성 개선을 위해 코드와 데이터 세트 공개

빅사이언스(BigScience)는 전 세계의 약 1,000명의 학자 및 연구원의 도움으로 빅 테크 기업의 대형 언어 모델에 대응하기 위해 ‘블룸(BLOOM)’을 개발했다.(사진=Bug)
빅사이언스(BigScience)는 전 세계의 약 1,000명의 학자 및 연구원의 도움으로 빅 테크 기업의 대형 언어 모델에 대응하기 위해 ‘블룸(BLOOM)’을 개발했다.(사진=Bug)

약 1,000명 정도의 학술 자원봉사자로 구성된 공개 협업 프로젝트인 빅사이언스(BigScience)가 대형 언어 모델에 대응하기 위한 언어 모델 ‘블룸(BLOOM)’을 개발했다. 

네이처(Nature)에 따르면 빅사이언스는 6월 17일 블룸 언어 모델의 초기 버전을 출시했다. 미화 700만 달러 상당의 공개 컴퓨팅 시간으로 훈련된 블룸 언어 모델은 규모 면에서 구글(Google) 및 오픈AI(OpenAI)와 경쟁하지만 오픈 소스로 공개되며 다국어 기반의 첫 번째 모델이 될 것이다. 

빅사이언스는 블룸이 궁극적으로 인공지능(AI) 언어 시스템의 유해한 출력을 줄이는 데 도움이 되기를 기대한다. 언어를 인식하고 생성하는 모델은 챗봇에서 번역에 이르는 다양한 응용 프로그램에서 점점 더 많이 사용된다. 때때로 모델이 생성하는 언어가 너무 인간적이어서 문제가 되거나 편향으로 인한 윤리적인 문제를 야기하기도 한다. 

하지만 대형 언어 모델에 대한 접근이 어렵기 때문에 이러한 문제를 해결하기가 어렵다. AI 모델 및 데이터 세트용 오픈 소스 플랫폼을 호스팅하고 빅사이언스를 주도하고 있는 허깅 페이스(Hugging Face)의 공동 설립자인 토마스 울프(Thomas Wolf)는 "모델에 대한 액세스는 책임 있는 머신 러닝을 수행하는 데 필수적인 단계라고 생각한다"라고 강조했다.

대형 언어 모델은 요약 생성, 번역, 질의 응답, 텍스트 분류와 같은 작업을 수행하기 위해 수십억 개의 단어와 구문 간의 통계적 연관성을 학습하는 알고리즘이다. 신경망으로 알려진 뇌에서 영감을 받은 아키텍처를 사용해 구축된 이 모델은 단어를 지우고 예측을 현실과 비교하여 매개변수라고 하는 값을 조정하면서 학습한다. 블룸은 비영리 회사인 오픈AI(OpenAI)가 만들고 마이크로소프트가 라이선스한 가장 잘 알려진 모델 중 하나인 GPT-3와 동등한 1,760억 개의 매개변수를 가지고 있다.

허깅 페이스는 블룸을 위해 UI 모델 및 데이터세트용 오픈 소스 플랫폼을 호스팅한다.(사진=허깅페이스)
허깅 페이스는 블룸을 위해 UI 모델 및 데이터세트용 오픈 소스 플랫폼을 호스팅한다.(사진=허깅페이스)

언어 모델은 시를 생성하거나 사소한 질문에 올바르게 답하는 등 때로는 인상적이기는 하지만 언어의 의미를 알지 못하기 때문에 횡설수설하기도 한다. 더 걱정스럽게도 그들은 학대나 자해를 조장할 수 있으며 '이슬람'을 테러리즘과 연결하는 것과 같이 인간이 만든 학습 데이터에 내포된 인종차별적 또는 성차별적 편견과 편향을 배우고 드러낸다. 모델은 일반적으로 훈련하는 데 수백만 달러가 소요되고 엄청난 탄소 배출이 뒤따른다. 빅사이언스도 결국 탄소 배출량을 공개할 예정이다.

대부분의 자연어 모델은 소규모 사내 팀에서 구축한 반면, 블룸은 윤리학자, 법률 학자, 철학자를 포함한 수백 명의 연구원과 개인 자격으로 일하는 페이스북(Facebook) 및 구글(Google) 직원의 작업 결과다. 블룸을 훈련시키기 위해 빅사이언스는 프랑스 국립 쟝 제이(Jean Zay) 슈퍼컴퓨터 시설에 무료로 액세스할 수 있었다. 모델은 현재 3개월 훈련(training) 기간의 막바지에 있다.

빅사이언스는 프랑스 국가 슈퍼컴퓨터 쟝 제이(Jean Zay)에 대한 무료 액세스 권한을 부여받았다.(사진=쟝 제이)
빅사이언스는 프랑스 국가 슈퍼컴퓨터 쟝 제이(Jean Zay)에 대한 무료 액세스 권한을 부여받았다.(사진=쟝 제이)

허깅페이스의 연구원인 야신 예르나이트(Yacine Jernite)는 “모델은 기반으로 하는 데이터 세트 만큼만 우수하므로 모델이 학습할 텍스트를 선택하는 것이 주요 작업이었다”고 말했다. 레딧(Reddit)과 같은 사이트를 포함해 대부분의 주요 모델은 웹에서 언어를 추출하지만, 빅사이언스 연구원들은 500개 소스에서 3,410억 단어 데이터 세트의 거의 2/3를 직접 선택했다. 그 중에는 네이처(Nature) 뉴스 기사와 같은 콘텐츠도 포함하는 학술 출판물을 검색하는 AI 기반 검색 엔진인 시맨틱 스칼라(Semantic Scholar)도 있다. 데이터 소스는 아프리카의 자연어 처리 커뮤니티인 Masakhane, LatinX, Machine Learning Tokyo와 같은 커뮤니티 그룹이 워크숍을 통해 제안했다. 예르나이트는 "우리는 데이터, 국가, 사용하는 언어에 인접한 사람들이 모델 교육에 사용할 언어를 선택할 수 있도록 하고 싶었다"라고 덧붙였다.

사용 가능한 컴퓨팅 성능을 최대한 활용하기 위해 다국어 웹 크롤링을 사용해 데이터를 수집하고 품질을 필터링하고 개인 정보 보호를 위해 일부 수정했다. 또한 포르노 사이트의 일반적인 과대 표현을 줄이려고 시도했지만 커뮤니티에서 성에 대한 솔직한 토론과 관련된 콘텐츠에 대한 키워드는 제외하지 않았다.

예르나이트는 블룸이 편견에서 자유롭지 않을 것임을 인정한다. 그러나 다문화 및 고품질 소스를 제공함으로써 기존 모델을 개선하기를 희망한다. 울프는 결정적으로, 모델 뒤에 있는 코드와 데이터 세트가 공개되어 있기 때문에 연구자들은 유해한 결과물의 근원을 이해하고 찾아낼 수 있으며 이를 통해 향후 개선의 여지가 있다고 주장했다.

브라운 대학(Brown University)의 자연어 학습 연구원인 엘리 파블릭(Ellie Pavlick)은 모델 평가도 일반적인 벤치마크와 다를 것이라고 말했다. 예를 들어 질문에 답하는 능력에서 블룸을 다른 모델과 비교하는 것 외에도 연구자들은 특정 고정 관념을 얼마나 강하게 만드는지 또는 능력이 특정 언어에 얼마나 편향되어 있는지와 같은 더 다양한 메트릭을 보고 싶어한다. 

또한 모델이 다국어가 되도록 훈련되었기 때문에 언어에 대한 더 깊은 이해를 가질 수 있으며 이는 다양한 작업으로 일반화하는 능력에도 도움이 될 수 있다. 영어로 된 데이터 세트가 상대적으로 작은 것을 감안할 때 모델이 영어로 된 다른 대형 모델보다 약간 더 성능이 떨어질 수 있지만 다른 곳에서 현저하게 더 나은 성능으로 균형을 맞출 수 있다.

완전히 훈련된 블룸 모델은 특정 응용 프로그램에 대한 새로운 데이터로 실험하거나 훈련하려는 연구원을 위해 다운로드할 수 있다. 그러나 다운로드하여 실행하려면 상당한 하드웨어 용량이 필요하다. 소수의 연구 팀에서만 사용할 수 있기 때문에 빅사이언스는 더 작고 하드웨어 집약적인 버전을 게시할 뿐만 아니라 실험실에서 서버 간에 모델을 공유할 수 있는 분산 시스템을 만들 예정이다. 또한 허깅 페이스는 누구나 블룸을 다운로드하지 않고도 쿼리할 수 있는 웹 애플리케이션을 출시할 예정이다. 이번 주에 비슷한 애플리케이션이 초기 릴리스에 제공될 예정이다.

블룸은 AI 연구 뿐만 아니라 역사적 텍스트에서 정보를 추출하고 생물학에서 분류하는 것과 같은 다양한 연구에도 개방된다. 웨스턴 오스트레일리아 대학(University of Western Australia)의 언어학자인 프란체스코 디 토니(Francesco de Toni)는 수작업으로 처리하기에는 너무 큰 역사적 텍스트 컬렉션에서 정보를 추출하기 위해 모델을 사용하는 방법을 모색하고 있다. 예를 들어 모델은 르네상스 상인의 편지 모음에서 언급된 모든 이름이나 상품을 추출할 수 있다. 이것은 검색 엔진을 사용해 찾을 수 없는 정보다.

블룸은 기능 및 제한 사항을 설명하는 설명서와 함께 제공된다. 또한 이를 사용하려면 연구원들이 가짜 뉴스 생성과 같은 악의적이거나 부적절한 목적을 위해 모델을 사용하지 않을 것을 동의하는 법적 라이선스에 서명해야 한다. 빅사이언스의 윤리 및 법률 실무 그룹의 공동 의장을 맡은 파리 소르본 대학(Sorbonne University) 철학자이자 허깅 페이스의 윤리학자인 기아다 피스틸리(Giada Pistilli)는 협력을 통해 모델이 적용되는 방식을 모니터링하고 필요에 따라 라이선스와 문서를 조정할 것이라고 말했다. 이어 "모든 용도를 상상하고 예측하는 것은 정말 어렵다"라고 덧붙였다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]GPT-4에서 무엇을 기대할 수 있을까?

[관련기사]세레브라스, 단일 장치에서 200억 매개변수의 AI 모델 훈련 성공

키워드 관련기사
  • 구글, AI 언어모델 'LaMDA 2'를 위한 베타 테스트 공개
  • 메타, 언어 모델 OPT-175B 무료 공개
  • 구글, 5400억 매개변수 초대형 언어 모델 ‘PaLM’ 공개