(사진=셔터스톡)
(사진=셔터스톡)

비영리단체인 엘루서 AI가 세계 최대 규모의 데이터셋 구축에 나선다. 단지 데이터를 인터넷에서 긁어 모으는 것을 넘어 저작권 및 데이터 라이선스와 관련된 문제를 해결할 수 있는 다양한 범주의 고품질  데이터셋을 구축한다는 점에서 주목된다.

벤처비트는 11일(현지시간) 엘루서 AI가 토론토대학교, 앨런 AI연구소 등과 협력해 대형언어모델(LLM) 훈련을 위해 만든 데이터셋 ‘파일(Pile)’의 업데이트 버전을 구축하고 있다고 보도했다.

이에 따르면 엘루서 AI는 2020년에 메타의 '라마', 스태빌리티 AI의 '스테이블LM' 등 인기있는 오픈 소스 LLM을 훈련한 825기가바이트(GB) 오픈 소스 데이터셋 파일을 출시했다. 그러나 지난해 10월 저작권 소송에 연루된 데이터셋 ‘북스3(Books3)’를 포함한다는 이유로 파일을 차단했다.

엘루서 AI는 데이터셋 작업을 중단하는 대신 업데이트 버전 구축에 나선 것으로 알려졌다.

스텔라 비더만 엘루서 AI 전무는 “업데이트 파일 데이터셋이 최종 확정되기까지 몇 달 남지 않았다”라며 “새로운 학습용 데이터셋은 훨씬 더 커지고 더 좋아질 것으로 예상된다”라고 말했다.

새 버전의 파일에는 원본보다 최근 데이터가 포함되고, 또 더 나은 전처리가 포함될 예정이다. 

비더만 전무는 "파일을 처음 만들 때 우리는 LLM을 훈련한 경험이 없었다"라며 "하지만 이제는 거의 12개의 모델을 훈련시켜 봤으며, 어떻게 하면 LLM에 유리한 방식으로 데이터를 정리하는지 잘 알게 됐다"라고 말했다.

더불어 새 버전의 데이터셋에는 더 나은 품질과 다양한 데이터가 포함된다. 특히 논픽션 영역을 확장했다. 정부의 공개 문서나 법적 서류, 크리에이티브 커먼즈 라이선스 텍스트, 오픈 소스 라이선스가 부여된 코드, 재배포 및 재사용을 허용하는 텍스트, 권리자로부터 명시적으로 허가받은 데이터셋 등이 여기에 해당한다. 

아비야 스코우론 에루서 AI 정책 및 윤리 책임자는 “새 파일 프로젝트의 목표 중 하나는 저작권 및 데이터 라이선스 일부 문제를 해결하려는 것”이라고 말했다.

또 "정책 목표나 윤리적 이상을 달성하려면 훈련에 대한 철저한 문서화를 포함해 훨씬 더 많은 투명성이 필요하다"라고 말했다.

업데이트 버전 파일 데이터셋은 연내 출시가 목표다. 

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지