기존 모델 병합 방식(왼쪽)은 각 모델의 매개변수를 미리 정해진 단위(예: 레이어)로 나눈 뒤, 각 단위를 섞기 위한 최적의 비율을 찾는다. 반면, M2N2(오른쪽)은 자유로운 분할 지점을 이용해 점점 더 다양한 비율과 나눔 방법을 시도한다. (사진=아카이브)
기존 모델 병합 방식(왼쪽)은 각 모델의 매개변수를 미리 정해진 단위(예: 레이어)로 나눈 뒤, 각 단위를 섞기 위한 최적의 비율을 찾는다. 반면, M2N2(오른쪽)은 자유로운 분할 지점을 이용해 점점 더 다양한 비율과 나눔 방법을 시도한다. (사진=아카이브)

사카나 AI가 여러 모델의 특화된 지식을 하나로 통합하는 새로운 모델 병합(Model Merging) 기술을 공개했다. 수학 전문 모델과 웹 작업 전문 에이전트 모델과 같이 상이한 모델을 합쳐, 두가지 성능을 모두 발휘할 수 있는 새로운 모델을 만들 수 있다는 설명이다. 

사카나는 29일(현지시간) 온라인 아카이브를 통해 고비용의 학습이나 미세조정 과정 없이 AI 모델 성능을 강화할 수 있는 모델 병합 방식 ‘M2N2(Model Merging of Natural Niches)'을 발표했다. 

모델 병합은 여러 특화 AI 모델의 지식을 하나로 통합해 더 강력한 성능을 내도록 하는 방법이다. 하지만 기존 방식은 매개변수를 미리 정해진 그룹으로 나눠 병합해야 했기 때문에, 다양한 조합을 충분히 탐색하기 어렵고 성능에도 한계가 있었다.

M2N2은 기존 모델 병합 방식의 한계를 넘어설 뿐 아니라, 아예 처음부터 새로운 모델을 스스로 만들어 나갈 수 있다는 점에서 큰 주목을 받고 있다.

M2N2는 대형언어모델(LLM)부터 텍스트-이미지 생성 모델까지 다양한 머신러닝 모델에 적용 가능해, 오픈 소스 모델을 조합해 맞춤형 솔루션을 개발하려는 기업들에게는 효율적이고 강력한 대안이 될 수 있다는 평이다.

사카나 AI는 기존 모델 병합 방식의 한계를 극복하기 위해 세가지 핵심 요소를 도입했다. 먼저 동적 병합 경계 조정을 통해 모델을 고정된 레이어 단위 대신 자유롭게 나눌 수 있는 지점을 만들어 다양한 조합을 시도할 수 있도록 했다.

또, 자연 생태계의 경쟁 원리를 참고한 다양성 유지 메커니즘으로 서로 다른 강점을 가진 모델들을 보존하면서 효과적으로 병합할 수 있게 했다.

마지막으로, 휴리스틱 기반의 끌림(attraction) 지표를 활용해 단순히 성능이 좋은 모델만 합치는 것이 아니라 서로 보완이 되는 모델끼리 골라 병합할 수 있게 했다.

수학(GSM8k)과 웹 쇼핑(WebShop) 벤치마크: M2N2 모델 병합은 두 시드 모델의 장점을 결합한다. (사진=아카이브)
수학(GSM8k)과 웹 쇼핑(WebShop) 벤치마크: M2N2 모델 병합은 두 시드 모델의 장점을 결합한다. (사진=아카이브)

연구진은 MNIST 데이터셋을 활용해 이미지 분류 모델을 처음부터 만들어 나가는 소규모 실험을 진행했으며, 기존 기법보다 높은 정확도를 달성했다.

이를 통해 수학 특화 모델 ‘위자드매스-7B(WizardMath-7B)’과 에이전트 특화 모델 ‘에이전트에볼-7B(AgentEvol-7B)’를 병합해 수학 문제와 웹 기반 작업을 동시에 수행할 수 있는 새로운 다기능 언어모델을 만들었다.

이미지 생성 분야에서도 일본어 프롬프트에 특화된 'JSDXL'과 영어 기반 '스테이블 디퓨전'을 결합, 영어·일본어 모두 이해 가능한 이중 언어 능력을 갖춘 고성능 생성 모델을 구현했다.

M2N2는 데이터에 직접 접근할 수 없는 상황에서도 모델의 가중치만 있으면 활용할 수 있어, 기업 입장에서는 비용을 줄이고 리스크를 최소화할 수 있는 큰 장점이 있다. 연구진은 “판매 화법에 특화된 LLM과 고객 반응을 분석하는 비전 모델을 병합하면, 실시간으로 피드백에 맞춰 프레젠테이션을 조정하는 AI가 가능해진다”라고 설명했다.

연구진은 이번 기술을 ‘모델 융합(model fusion)’으로 발전시키는 것이 AI 생태계의 미래라고 강조했다. 여러 모델이 끊임없이 결합·진화하며 새로운 과제를 해결하는 동적인 AI 생태계가 구축될 수 있다는 것이다.

다만, 오픈 소스와 상용 모델이 뒤섞이는 과정에서 개인정보 보호, 보안, 규제 준수 같은 조직적 과제가 가장 큰 문제로 꼽힌다.

M2N2 알고리즘은 현재 깃허브에 공개돼 있다.

한편, '트랜스포머' 논문 저자 중 하나인 릴리언 존스와 데이비드 하가 설립한 사카나 AI는 그동안 모델 병합 기술 개발에 집중해 왔다. 

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지