메타가 '라마 3(Llama 3)'의 개발 과정에서 오픈AI의 'GPT-4'를 능가하기 위해 총력을 기울였다는 사실이 드러났다. 더 눈길을 끄는 것은 오픈 소스 계열의 라이벌인 미스트랄 AI를 경쟁자로도 취급하지 않았다는 점이다.
이 사실은 14일(현지시간) 코미디언 사라 실버맨과 타네히시 코츠를 포함한 작가 그룹이 메타와의 저작권 침해 소송을 통해 법원에 제출한 자료를 통해 밝혀졌다.
실버맨 등은 메타가 GPT-4를 뛰어 넘기 위해 라마 3 개발에 몰두하는 과정에서 저작권이 있는 데이터를 무차별로 수집했다고 주장했다.
이 문서에 따르면, 아마드 알-달레 메타 생성 AI 부문 부사장은 2023년 10월 휴고 투브론 메타 연구원에게 보낸 메시지에서 “우리의 목표는 GPT-4를 뛰어넘는 것”이라며 "메타의 AI 모델은 경쟁사인 오픈AI의 GPT-4와 앤트로픽의 클로드를 기준으로 삼아야 한다"라고 말했다.
프랑스 스타트업 미스트랄 AI도 메타와 경쟁하는 오픈 소스 모델 중 하나로 내부 메시지에서 여러 차례 언급됐다. 하지만 알-달레 부사장은 "미스트랄은 우리에게 땅콩에 불과하다. 우리는 더 잘할 수 있다"라고 무시하는 발언을 했다.
이번 문건은 메타가 얼마나 공격적으로 라마 3 개발에 매달렸는지를 보여준다는 평이다. 메타 임원들은 "매우 공격적으로 적합한 데이터를 확보하라"고 여러 차례 언급했다. 한 임원은 "내가 신경쓰는 것은 라마 3 뿐"이라고 말했다.
또 라마 2에 사용된 데이터셋이 좋지 않았다고 지적하며, 더 나은 데이터 소스를 활용해 라마 3를 개선하라는 지시도 포함됐다. 이후 메타는 불법 복제물이 대거 포함된 것으로 보이는 데이터셋 ‘립젠(LibGen)’을 활용하는 것에 대해 논의했다.
특히 알-달레 부사장은 "우리가 필요한 데이터셋을 모두 확보했는가"라며 "어떤 바보 같은 이유로 사용하지 못한 데이터셋이 남아 있나"라고 질문했다.
결국 마크 저커버그 메타 CEO도 데이터셋에 문제가 있다는 것을 알면서도 립젠을 라마 3 모델 학습에 사용하도록 승인했다는 것이 원고 측 주장이다.
메타는 2024년 4월 라마 3를 출시했다. 특히 저커버그 CEO는 오픈 소스 모델로 오픈AI나 구글, 앤트로픽 등 폐쇄형 모델을 뛰어넘는 첫 모델이라고 강조했다. 또 각종 인터뷰를 자청, 오픈 소스가 폐쇄형을 이길 것이라고 한동안 강조했다.
하지만 저커버그 CEO가 사용을 승인한 것으로 알려진 데이터는 여러 소송에서 문제로 지적되고 있다.
박찬 기자 cpark@aitimes.com
