지난주 공개된 메타의 '라마 3.1'과 미스트랄 AI의 '라지 2'로 인해 오픈 소스 모델에 대한 개발자 커뮤니티의 반응이 뜨겁습니다. 드디어 오픈 소스가 폐쇄형 모델의 성능을 따라잡을 것이라는 기대감에서입니다.
마크 저커버그 메타 CEO는 라마 3.1을 두고 "오픈 소스 최초의 프론티어급 레벨"이라고 강조했습니다. 그리고 "내년에 나올 모델은 업게에서 가장 진보된 모델일 것"이라고도 자신했습니다.
이어 다음날 출시된 미스트랄 AI의 라지 2는 특히 다국어 분야에서 기존 최상위 시스템과 동등하거나 더 뛰어난 것으로 알려졌습니다.
이에 따라 개발자 커뮤니티에서는 기대감이 대단합니다. 피트 스코모로비치라는 AI 전문가는 "몇년마다 몇퍼센트 AI 벤치마크를 간신히 움직이는 머신 러닝 분야를 고려할 때, 이는 6개월 만에 인상적인 도약"이라고 밝혔습니다.
실제로 지난해 12월 아크 인베스트의 연구에 따르면, 오픈 소스 모델은 MMLU 벤치마크에서 GPT-4 등의 성능에 10% 차까지 따라붙은 것으로 알려졌습니다. 당시에도 이는 반년 새 엄청난 발전이라는 말이 나왔습니다.
당장 중국에서는 알리바바와 텐센트 같은 빅테크들이 클라우드 서비스에 앞다퉈 라마 3.1을 도입했다고 밝혔습니다.
특히 오픈 소스 모델은 중국의 생명줄로도 통합니다. 오픈 소스로 인해 큰 덕을 보고 있다는 분석입니다.
지난해 말 세계 최고 성능의 오픈 소스 모델로 꼽힌 01.AI의 '이(Yi)' 모델은 사실 라마2를 미세조정한 것으로 밝혀졌습니다. 구체적으로 밝혀진 바는 없지만 현재 200개가 넘는 중국 대형언어모델(LLM) 중 상당수가 라마의 미세조정 버전이라는 분석이 나오고 있습니다.
이는 자타가 공인하는 사항입니다. 중국 산업 관계자들은 메타의 라마에 지나치게 의존적이라는 경고를 내놓았고, 미국에서는 첨단 오프 소스 모델이 중국을 이롭게 한다는 지적이 나았습니다.
이에 대해 저커버그 CEO는 "우리의 적들은 스파이 활동에 매우 능숙하며, 모델을 훔치는 것은 비교적 쉽다"라며 "하지만 대부분은 이를 고도화하는 방식으로 운영하지는 않는다"라고 밝혔습니다.
어쨌거나 1년 전까지만 해도 오픈AI나 구글의 첨단 모델과는 비교도 안 되던 오픈 소스가 반년 뒤에는 격차를 줄였고, 이제는 거의 대등하다는 평가를 내놓을 정도가 됐습니다.
물론 해결할 점도 많습니다. 대부분 오픈 소스는 멀티모달이 아닙니다. 또 오픈AI나 구글의 데이터 저작권 계약에 따른 사실상 독점으로 인해 향후 성능 고도화에는 더 어려움을 겪을 가능성이 있습니다.
또 이는 국내에도 중요한 계기가 됩니다. 한국어 능력을 가리는 '오픈 KO-LLM 리더보드'에 등록된 모델 1700여개 중 상당수는 메타의 모델을 베이스로 한 것입니다.
라마 3.1 도입에 따라 국내 연구진도 바쁠 것으로 보입니다. 추후 업데이트될 리더보드에서 국내 기술진이 어떤 발전을 이룰지 주목됩니다.
이전 지난 주말 주요 이슈입니다.
■ 세일즈포스, 기존 10배 규모 오픈 소스 멀티모달 데이터셋 출시
역대 최대 규모의 멀티모달용 데이터셋이 오픈 소스로 공개됐습니다. HTML을 넘어 PDF와 아카이브 논문 내용까지 포함했다고 합니다. 이를 통해 폐쇄형에 치중됐던 멀티모달모델을 소규모 개발자들도 도전할 수 있게 됐습니다.
■ JYP·SM·YG·하이브 영상도 AI 학습 무단 사용 의혹
동영상 생성 AI 런웨이가 모델 학습에 사용한 것으로 추정되는 유튜브 주소 리스트가 폭로됐습니다. 여기에는 국내 주요 언터테인먼트 회사와 방송국, 인기 유튜버 등이 포함된 채널 4000여개가 포함됐습니다. 이들의 대응이 주목됩니다.
■ 트럼프 AI 챗봇 “JD 밴스와 구글 해체 논의 중”
챗GPT를 활용해 제작한 '트럼프 AI 챗봇'과 최근 이슈에 대해 가상 대화를 나눠 봤습니다. 역시 예상했던 답이 나옵니다. 트럼프 챗봇도 메타나 구글을 싫어하는 것으로 드러났습니다.
AI타임스 news@aitimes.com
