라마 가드 출력 분류 (사진=arXiv)
라마 가드 출력 분류 (사진=arXiv)

메타가 모바일 및 엣지 장치에 최적화된 초경량급 오픈 소스 소형언어모델(sLM)을 오픈 소스로 공개했다. 클라우드 서버와의 연결 없이 엣지 디바이스에서 실행이 가능하도록 컴팩트한 모델을 제공하면서도 높은 안전 표준을 보장하는 것이 특징이다.

마크테크포스트는 30일(현지시간) 메타 연구진이 엣지 장치에서 로컬로 실행할 수 있을 정도로 컴팩트하면서도 출력이 안전하고 윤리적인 지침을 준수하도록 보장하는 안전 조정(safety moderation) 모델 ‘라마 가드 3-1B-INT4’에 관한 논문을 아카이브에 게재했다고 소개했다.

라마 가드 3-1B-INT4는 지난 9월 '메타 커넥트 2024'에서 발표됐으며, 이번에 세부 내용이 공개됐다.

440메가바이트(MB) 크기로 이전 모델인 라마 가드 3-1B보다 7배 더 작다. 하지만 성능 저하 없이 크기를 줄이기 위해 디코더 블록 가지치기(pruning), 뉴런 수준 가지치기, 양자화(quantization) 훈련 등의 고급 압축 기술을 적용했다. 가지치기는 덜 중요한 매개변수를 선택적으로 제거하는 방식이며, 양자화는 가중치의 정밀도를 낮은 비트 형식으로 축소하는 방법이다.

또 압축 중 손실된 품질을 복구하기 위해 연구진은 더 큰 라마 가드 3-8B 모델에서 증류(distillation) 기술을 사용했다. 증류는 큰 모델이 생성한 데이터로 작은 모델을 학습하는 방식이다.

이 모델은 표준 안드로이드 모바일 CPU에서 초당 30토큰 이상의 처리량과 2.5초 이내의 첫번째 토큰 출력 시간을 기록했다.

라마 가드 압축 파이프라인 (사진=아카이브)
라마 가드 압축 파이프라인 (사진=아카이브)

라마 가드 3-1B-INT4는 가지치기 기법을 통해 모델의 디코더 블록 수를 16개에서 12개로 줄였으며, 다층 퍼셉트론(MLP)의 은닉 차원을 8192에서 6400으로 축소해 매개변수를 15억개에서 11억개로 줄였다. 양자화 기술을 통해 모델 가중치는 INT4로, 활성화 함수는 INT8로 정밀도를 낮춰 16비트 기준 대비 크기를 4배 줄였다.

또 불필요한 출력 계층을 가지치기하여 20개의 필수 토큰만을 처리하고, 기존 인터페이스와의 호환성도 유지했다. 이 최적화 덕분에 모바일에서도 원활하게 작동하면서도 안전성을 유지할 수 있다.

F1 점수 비교 (사진=아카이브)
F1 점수 비교 (사진=아카이브)

이 모델은 영어 콘텐츠에 대해 F1 점수 0.904를 기록해, 더 큰 라마 가드 3-1B(0.899)를 초과하는 성과를 보였다. F1 점수는 AI 모델의 성능을 평가하는 중요한 지표로, 정밀도와 재현율의 조화 평균을 의미한다. 정밀도란 모델이 참(True)이라고 분류한 것 중에서 실제 참인 것의 비율이며, 재현율이란 실제 참인 것 중에서 모델이 참이라고 예측한 것의 비율이다. 정밀도와 재현율이 둘 가 높을 수록 F1 점수가 높아진다. 

다국어 처리에서도 라마 가드 3-1B-INT4는 프랑스어, 스페인어, 독일어 등 8개 비영어 언어 중 5개에서 기존 더 큰 모델들과 동등하거나 더 나은 성능을 보였으며, 제로샷 테스트에서 GPT-4보다 7개 언어에서 더 뛰어난 안전 조정 점수를 기록했다.

크기 축소와 성능 최적화 덕분에 이 모델은 모바일 배포에 적합한 솔루션이 됐으며, 실제로 모토롤라 레이저(Moto-Razor) 스마트폰에서 성공적으로 실행됐다.

현재 라마 가드 3-1B-INT4는 깃허브에서 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지