메타 연구진은 대형언어모델(LLM)을 다양한 애플리케이션에 적용할 때 지식을 향상하고 잘못된 정보를 줄이기 위한 방법으로 '확장 가능한 메모리 계층(scalable memory layers)'이라는 아키텍처를 제시했다. 이는 충분한 메모리를 제공하면서도, 빠른 모델 추론 속도를 유지할 수 있어 유용하다는 설명이다.
메타 연구진은 최근 추가 컴퓨팅 자원 없이 LLM에 더 많은 매개변수를 넣어 학습 능력을 증가하는 ‘확장 가능한 메모리 계층’ 아키텍처에 관한 논문을 아카이브에 게재했다.
전통적인 언어 모델은 '밀집 계층(dense layers)'을 사용해 많은 양의 정보를 모델의 매개변수에 저장한다. 이 방식은 매개변수를 모두 활성화하고 계산 자원을 많이 필요로 한다.
반면, 간단한 지식은 연관 메모리를 사용하는 간단한 계층이 더 효율적이고 해석하기 쉽다. 메모리 계층은 적은 자원을 쓰면서 필요한 정보를 효율적으로 저장하고 검색할 수 있다.
현재의 LLM들은 주로 ‘전문가 혼합(MoE)’ 아키텍처를 사용한다. 이는 메모리 계층과 유사한 메커니즘을 사용한다. MoE 모델은 여러 전문가가 특정 작업을 담당하는 방식으로, 추론할 때 어떤 전문가를 활성화할지 결정한다. 구글 딥마인드가 만든 '피어(PEER)'는 MoE를 수백만명개의 전문가 모델로 확장, 매개변수 활성화에 대해 더 세밀한 제어를 가능하게 한다.
메모리 계층은 계산 자원 소모는 적지만, 메모리 자원 요구가 크기 때문에 기존의 하드웨어와 소프트웨어에서 어려움을 겪을 수 있다는 것이 문제다.
이를 해결하기 위해 메타 연구진은 메모리 계층을 대규모로 활용할 수 있는 방법을 제시했다. 메모리 계층을 병렬화해 여러 GPU에 분배하는 방식으로 수백만개의 키-값(Key-Value) 쌍을 저장할 수 있도록 했으며, 메모리 계층 간에 키와 값을 공유하는 메커니즘을 개발해 효율성을 개선했다.
이런 수정 덕분에 메모리 계층은 모델 속도를 떨어뜨리지 않고 LLM에서 사용할 수 있게 됐다. 연구진은 "메모리 계층은 밀집 계층 네트워크를 보완해 계산 자원을 적게 사용하면서 지식 획득 능력을 증가시킨다"라며 "효율적으로 확장 가능하며 메모리와 계산 자원의 균형을 맞출 수 있는 새로운 방향을 제시한다"라고 밝혔다.
테스트 결과, 메모리 계층을 사용한 모델은 기존 밀집 계층 기반 모델보다 성능이 우수했다. 2배에서 4배 더 많은 계산 자원을 사용하는 모델들과 경쟁할 수 있었다.
또 같은 계산 자원과 매개변수 수를 가진 MoE 모델과 동일한 성능을 발휘했다. 특히 사실 기반 지식이 중요한 작업에서 성능이 뛰어났다. 사실 기반 질문 응답 작업에서 13억개 매개변수를 가진 메모리 모델은 2배 더 많은 토큰과 10배 더 많은 계산 자원을 사용한 '라마-2-7B'과 비슷한 성능을 보였다. 연구진은 실험을 1억3400만에서 80억개 매개변수로 확장해도 메모리 모델의 장점이 그대로 유지된다고 전했다.
연구진은 "이번 결과를 바탕으로 메모리 계층을 모든 차세대 AI 아키텍처에 통합하는 것이 필요하다"라며 "새로운 학습 방법들이 추가돼 계층 효과를 더욱 향상할 수 있기를 바란다"라고 강조했다.
박찬 기자 cpark@aitimes.com
