(사진=셔터스톡)
(사진=셔터스톡)

허깅페이스가 대형언어모델(LLM)의 훈련을 향상하기 위해 설계한 데이터셋을 오픈 소스로 출시했다.

마크테크포스트는 3일(현지시간) 허깅페이스가 비영리 단체인 커먼크롤의 웹 크롤링 자료를 활용, 오픈 소스 데이터셋 ‘파인웹(FineWeb)’을 허깅페이스를 통해 출시했다고 전했다. 

파인웹은 96개의 커먼크롤이 2007년부터 웹에서 모은 스냅샷을 바탕으로 구축한 것으로, 15조개의 토큰을 포함하고 44테라바이트(TB)의 디스크 공간을 차지한다.

파인웹 특징 중 하나는 엄격한 중복 제거 프로세스다. 허깅페이스는 퍼지 해싱 기술인 '민해시(MinHash)'를 사용해 중복 데이터를 효과적으로 제거했다. 이를 통해 중복된 내용의 기억을 줄이고 학습 효율성을 높여 모델 성능을 향상한다. 

파인웹 파이프라인 (사진=허깅페이스)
파인웹 파이프라인 (사진=허깅페이스)

또 고급 필터링을 사용해 품질이 낮은 콘텐츠를 제거했다. 초기 단계에는 언어 분류 및 URL 필터링을 적용해 영어가 아닌 텍스트와 성인 콘텐츠를 제거했다. 과도한 상용구 내용이 포함된 문서를 제거하거나 구두점으로 줄을 끝내지 못하는 문서를 제거하기 위해 휴리스틱 필터를 추가 적용했다.

허깅페이스는 기본 데이터셋과 함께 교육 콘텐츠에 맞춰진 하위 세트인 '파인웹-에듀(FineWeb-Edu)'도 구축했다. 이는 라마-3-70B-인스트럭트 모델에서 생성된 50만개의 합성 주석을 사용해 구축했다.

이런 주석에 대해 훈련된 분류기를 전체 데이터셋에 적용, 교육적이지 않은 콘텐츠를 걸러냈다. 그 결과 MMLU, ARC 및 오픈북QA(OpenBookQA)와 같은 교육 벤치마크에 최적화된 1조3000억개의 토큰의 데이터셋이 탄생했다.

데이터셋 비교 (사진=허깅페이스)
데이터셋 비교 (사진=허깅페이스)

파인웹은 여러 벤치마크에 대해 엄격한 테스트를 거쳤으며, 다른 오픈 소스 웹 데이터셋보다 뛰어난 성능을 기록했다.

이런 벤치마크에는 커먼센스 QA(CommonSense QA), 헬라스웩(HellaSwag), 오픈북QA 등이 포함된다. 특히 파인웹-에듀는 고품질 교육 콘텐츠 필터링을 위한 합성 주석의 효율성을 입증하는 등 괄목할 만한 개선을 보였다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지