100% 저작권을 확보한 데이터셋으로만 훈련한 대형언어모델(LLM)이 등장했다. 이 모델은 한 단체로부터 세계 최초의 '공정 학습(Fairly Trained) 모델' 인증을 획득했다.
벤처비트는 20일(현지시간) 미국 스타트업 273 벤처스가 개발한 LLM '클렘(KL3M)' 등 4개 기업이 비영리 단체 페어리 트레인드의 공정 학습 인증을 받았다고 보도했다. 나머지 3곳은 AI 음성 및 음악을 제공하는 기업이다.
이에 따르면 273 벤처스는 대니얼 마틴 카츠 일리노이대학교 교수가 공동 설립한 2년 차 스타트업이다. 이 회사는 미국 정부의 공개 문서와 오래된 법률 서류 등 모든 공개 도메인에서 저작권 문제가 해결된 데이터만 공들여 수집해 왔다.
카츠 설립자는 "사실 엄청난 양의 정보를 사용하지 않고도, LLM을 잘 학습할 수 있을지 처음에는 장담하지는 못했다"라며 "따라서 특정 도메인으로 범위를 한정하기로 했고, 그 결과 저작권이 없는 자료가 많은 법률이나 금융, 규제 등 분야를 선택하게 됐다"라고 말했다.
그 결과 몇달 동안 1만여개의 문서를 일일이 검토, 3500억개의 토큰을 포함한 데이타셋을 구축했다. 이를 학습한 ▲클렘-170m(매개변수 1억7000만개) ▲클렘-1.7b(매개변수 17억개) 두 종류를 출시했다. 이중 170m 모델은 M1 칩을 탑재한 애플 맥북 에어같은 저렴한 장치에서 저전력으로 실행할 수 있다.
학습 데이터에 따라 이 모델은 법률 문서나 계약서, 특허 초안 작성 및 수정에 특화됐다. 하지만 카츠 CEO는 "다른 분야에 대해서도 잘 일반화하는 모습에 깜짝 놀랐다"라며 "법은 사회 대부분의 문제를 다루고 있다는 것이 이유일 것"이라고 밝혔다.
벤치마크에서도 나쁘지 않은 결과를 거뒀다. 17억 매개변수 모델은 비슷한 크기의 '파이-2'나 '스테이블LM' '라마 3b'에 비해 퍼플렉시티 벤치마크의 위키 및 법률 분야에서 앞선 성능을 보였다.
이미 일부 로펌에서는 이 모델을 사용 중인 것으로 알려졌다. 다음달에는 매개변수 37억개의 모델도 출시할 예정이다.
한편 공정 학습 인증을 발급하는 페어리 트레인드는 지난 1월부터 데이터 제공자와 사용자가 모두 이익을 보자는 개념으로, AI 모델이 저작권을 준수하는지 평가하는 인증 프로그램을 도입했다.
저작권 문제를 해결한 회사를 인증, 사용자들이 부담을 느끼지 않고 사용하도록 일종의 '보증'을 서는 것이다.
가입하려면 AI 모델의 훈련 데이터 출처에 대한 세부 정보를 제출한 뒤 이 회사가 실시하는 데이터에 대한 사용 동의 평가를 통과하면 된다. 인증을 받기 위해서는 소액의 제출 수수료를 내고, 이후 수익에 따라 연간 최대 6000달러(약 780만원)을 지불하면 된다.
임대준 기자 ydj@aitimes.com
