(사진=유튜브)
(사진=유튜브)

최근 저작권 소송 과정에서 공개된 메타의 내부 문서에 ‘라마(Llama)’의 성능 향상을 위해 ‘절제(ablation)’ 실험을 진행했다는 내용이 담겼다. 이제까지 업계의 관행으로 여겨졌지만, 아무도 언급하지 않은 AI 절제 기술이 주목되고 있다.

비즈니스 인사이더는 17일(현지시간) 저작권 소송 절차 중 공개된 메타의 내부 문서를 분석한 결과, 메타가 AI 모델의 성능 개선을 위해 불법 도서를 활용해 절제 실험을 수행한 정황이 확인됐다고 보도했다. 

절제는 원래 의학에서 뇌 기능 개선과 같은 목적을 위해 조직을 의도적으로 제거하는 기술이다. AI 분야에서는 시스템의 일부를 제거한 뒤, 해당 요소가 전체 성능에 어떤 영향을 미치는지를 분석하는 방법을 뜻한다.

문서에 따르면, 메타 연구진은 기존 훈련 데이터 일부를 제거한 뒤 그 자리에 온라인 불법 도서 저장소인 ‘립젠(LibGen)’에서 확보한 책 데이터를 새로운 학습 자료로 투입해 라마 모델을 재훈련했다.

첫번째 실험에서는 과학 및 기술 서적과 함께 소설 데이터를 추가했고, 두번째 실험에서는 소설만 넣었다. 그 결과, 두 실험 모두에서 라마의 성능이 눈에 띄게 향상된 것으로 나타났다. 내부 문서에 따르면, 특정 벤치마크 평가에서 최대 6%포인트의 성능 개선 효과가 확인됐다.

문서를 분석한 닉 빈센트 사이먼프레이저대학교 교수는 “메타의 실험은 특정 훈련 데이터가 모델 성능에 얼마나 기여했는지를 수치로 보여준다”라며, 향후 AI 훈련에 사용된 콘텐츠에 대한 저작권 보상 논의를 촉진할 수 있는 중요한 단서가 될 수 있다고 평가했다. 그는 “이런 수치를 공개하면 콘텐츠 제작자들이 그 가치를 근거로 정당한 보상을 요구할 수 있게 된다”라고 설명했다.

그러나 메타를 포함한 대부분 기술 기업은 절제 실험의 결과나 훈련 데이터의 구체적인 출처를 공개하지 않았다. ‘GPT-2’나 초창기 트랜스포머 논문 등 과거 사례와 달리, 최근 발표된 LLM 관련 논문에서는 데이터 출처가 불분명하거나 모호하게만 서술된다.

이번 자료는 사라 실버맨 등이 제기한 저작권 침해 소송 중 공개된 것이다. 이들은 자신의 책이 메타의 AI 훈련에 활용됐다는 것을 입증하기 위해 립젠을 근거로 제시하고 있다.

이에 대해 메타는 AI 학습 과정에서 인터넷상의 공개 자료를 수집해 모델을 훈련는 것은 저작권 침해가 아니라는 입장이다. 그러나 빈센트 교수는 “이 수치들이 공개되면, 빅테크가 주장하는 ‘공정 사용(fair use)’ 논리에 결정적인 영향을 미칠 수 있다”라고 지적했다.

특히, 빌 그로스 프로라타 CEO는 “콘텐츠 창작자들은 AI 훈련 단계에서 한 번, 이후 AI가 그 정보를 기반으로 답변할 때 또 한 번 보상받아야 한다”라며 “메타와 같은 기업들이 이 실험 결과를 숨기는 것은 결국 비용 지불을 피하기 위한 것”이라고 비판했다.

또 “라마가 부IQ 벤치마크에서 5% 향상된 것은 AI 업계에서 결코 작은 수치가 아니다”라며 “이는 약 800개 질문을 더 정확히 답한 것과 같다”라고 설명했다. 예를 들어 “엘프와 인간은 ‘반지의 제왕’ 세계관에서 아이를 가질 수 있는가”와 같은 질문은 J.R.R. 톨킨의 원작 소설을 훈련한 모델만 정확히 답할 수 있다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지