MoE 및 CoE 개념 (사진=노션)
MoE 및 CoE 개념 (사진=노션)

'전문가 혼합(MoE)' 방식 대형언어모델(LLM)의 연산 효율성을 높이고 추론 작업 정확도를 동시에 향상하는 새로운 모델 아키텍처를 공개했다. MoE가 도출한 답을 순차적으로 검증하고 향상한다는 의미로 '전문가 사슬(CoE)'이라는 이름을 붙였다.

노스웨스턴대학교와 일리노이대학교 어바나-샴페인, 서리대학교, 옥스포드대학교  연구진은 10일(현지시간) 기존 MoE 아키텍처의 한계를 해결하는 ‘CoE(Chain-of-Experts)’ 아키텍처를 공개했다.

전통적인 LLM은 ‘덴스 모델(Dense Model)’이라고도 불리며, 추론 시 모든 매개변수를 동시에 활성화하기 때문에 모델이 커질수록 연산 비용이 급격히 증가한다. MoE 아키텍처는 이를 해결하기 위해 모델을 여러개의 전문가로 분할하고, 쿼리에 맞춰 일부 전문가만 사용하는 방식으로 효율성을 높였다. '딥시크-V3'나 'GPT-4o' 등이 대표적이다.

이를 통해 덴스 모델에 비해 연산량을 크게 줄일 수 있다. 예를 들어, 딥시크-V3는 6710억개의 매개변수를 가진 모델이지만, 257명의 전문가로 구성돼 있으며 입력 토큰마다 9명의 전문가만 활성화한다. 따라서 실제 활성화되는 매개변수 수는 370억개에 불과, 연산 비용을 절감할 수 있다.

그러나 MoE에도 한계가 있다. 전문가가 개별적으로 동작하기 때문에, 문맥을 고려해야 하거나 전문가 간 협력이 필요한 작업에서는 성능이 저하될 수 있다. 또 특정 순간에 사용되는 전문가 수는 적지만, 전체 모델 크기가 크기 때문에 여전히 높은 메모리 요구량이 필요하다.

CoE 아키텍처는 이런 문제를 보완하기 위해 전문가를 병렬이 아닌, 순차적으로 활성화하는 방식을 도입했다. 이를 통해 전문가들이 중간 결과를 공유하고 점진적으로 개선할 수 있도록 설계됐다.

핵심은 '반복 프로세스'를 사용한다는 점이다. 입력이 첫번째 전문가 그룹으로 라우팅돼 처리된 뒤, 중간 결과를 다음 전문가 그룹으로 전달해 추가 분석한다. 이어 다른 전문가 모델이 이를 검토하는 등 점진적으로 최적의 답을 도출하는 식이다.

이런 순차적 접근 방식 중 각 단계에서 문맥을 고려한 입력(Context-Aware Input)을 제공, 모델의 추론 처리 능력을 최종 향상한다.

이처럼 정확성을 높이는 것은 물론, 병렬 방식의 MoE 모델에서 발생하는 중복 연산을 줄여 연산 비용을 최적화한다는 장점이 있다.

덴스 모델, MoE 및 CoE 성능 비교 (사진=노션)
덴스 모델, MoE 및 CoE 성능 비교 (사진=노션)

연구진은 실험 결과, 동일한 연산 및 메모리 예산에서 CoE는 덴스 모델과 MoE를 능가하는 성능을 보였다고 전했다.

예를 들어, 수학 벤치마크 테스트에서 64명의 전문가 중 4개를 선택하고 2회 추론을 수행한 CoE-2(4/64)는, 64명의 전문가 중 8명을 선택하는 MoE(8/64)보다 더 높은 성능을 기록했다.

메모리 사용량 감소 효과도 확인됐다.

CoE-2(4/48)는 MoE(8/64)와 유사한 성능을 보이면서 메모리 사용량을 17.6% 절감했다. CoE-2(8/64)는 4층 신경망으로 구성됐지만, 8층 신경망을 사용한 MoE(8/64)와 동일한 성능을 달성하면서 메모리 사용량을 42% 절감했다. 

연구진은 "이번 결과는 CoE가 기존 MoE 대비 더욱 효율적인 모델 아키텍처를 가능하게 하며, 연산 비용을 낮추면서도 높은 성능을 유지할 수 있음을 시사한다"라고 밝혔다.

현재 CoE 아키텍처의 코드는 깃허브에서 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지