로라-가드 개요도 (사진= ㅁㄱ턒)
로라-가드 개요도 (사진= ㅁㄱ턒)

삼성전자 연구원들이 대형언어모델(LLM)의 정확도를 유지하면서도 가드레일을 효율적으로 적용할 수 있는 미세조정 기술을 선보였다. 모델 재학습 리소스를 획기적으로 감소, 온디바이스 AI에 적합하는 평가다. 삼성전자가 이 분야 논문을 내놓은 것이 알려진 것은 드문 일로, 본격적인 LLM 연구가 진행 중이라는 증거다.

마크테크포스트는 14일(현지시간) 삼성전자 리서치 영국(Samsung R&D Institute United Kingdom) 소속 연구원들이 '로라-가드(LoRA-Guard): LLM의 콘텐츠 조정을 위한 매개변수 효율적 가드레일 적응'이라는 논문을 온라인 아카이브에 게재했다고 소개했다.

이 연구는 LLM의 성능을 유지하면서도 효과적으로 가드레일을 적용하는 방법을 설명했다. 특히 미세조정에 필요한 리소스를 크게 줄였다는 점이 강조됐다.

가드레일은 사용자의 악의적인 쿼리 공격과 환각에 따른 부적절한 출력을 방지하기 위해 LLM에 적용하는 '안전 가이드 라인'이다. 이를 적용하기 위해서는 사전 훈련한 모델을 다시 가드레일에 맞춰 미세조정하는 것이 일반적이다.

그러나 이 경우 일반적인 방식대로 별도의 가드 모델을 사용하면, 모델 전체를 재학습하며 상당한 리소스를 소비하게 된다. 또 LLM과 가드 모델 간에 언어 이해 능력이 상당히 중복, 학습 과정이 비효율적이다.

이를 해결하기 위해 삼성 연구진은 미세조정 작업 중 모델의 성능 향상에 필요한 매개변수의 변경 사항만을 학습하는 로라(LoRA)를 도입했다.

이 시스템은 LLM 모델의 트랜스포머 백본에 있는 저랭크 어댑터를 사용해 유해한 콘텐츠를 감지한다. 또 분류 헤드로 가드레일을 위해 로라 매개변수를 활성화하고, 일반 채팅 기능을 위해서는 매개변수를 비활성화한다.

이런 방식을 연구진은 이전 방법에 비해 매개변수 오버헤드를 100~1000배 크게 줄였다고 밝혔다. 리소스가 적은 환경에서도 자유롭게 적용할 수 있다는 말이다.

또 제로샷 시나리오를 포함한 다양한 데이터 세트에서 평가됐으며, 추가 연구를 지원하기 위해 모델 가중치가 게시됐다.

로라-가드의 아키텍처는 LLM 채팅 모델에 가드 기능을 효율적으로 통합하도록 설계됐다. 두 모델은 모두 동일한 임베딩과 토크나이저를 사용한다. 여기에서 LLM은 원래 피처 맵(f)를 사용하는 반면, 가드 모델은 f에 부착된 로라 어댑터와 함께 새로운 피처 맵(f')을 사용한다는 것이 핵심이다. 또 가드 모델은 유해성을 분류하기 위해 별도의 출력 헤드(hguard)를 사용한다.

이런 '듀얼 경로'는 채팅 모델과 가드 기능 간의 원활한 전환을 가능하게 한다. 이에 따라 시스템은 성능 저하 없이 채팅과 가드 역할을 모두 수행할 수 있다. 경로 간 매개변수 공유는 계산량을 크게 줄이는데, 가드 모델은 원래 LLM 매개변수의 1000분의 1 정도만을 추가한다는 설명이다.

로라-가드는 데이터셋에서 새로운 피처 맵(f')과 별도의 출력 헤드(hguard)의 미세 조정을 통해 훈련되며, 채팅 모델의 매개변수는 고정된다. 이를 통해 기존 지식을 활용하면서 유해한 콘텐츠를 효율적으로 감지하는 방법을 학습한다.

이 방식은 여러 데이터셋에서 뛰어난 성능을 보여준다고 소개했다.

톡식챗의 가드 모델 평가 (사진=arXiv)
톡식챗의 가드 모델 평가 (사진=arXiv)

'톡식챗(ToxicChat)'에서 AUPRC의 기준보다 성능이 뛰어나면서도, 기존 미세조정 모델보다 매개변수를 최대 1500배 적게 사용했다. 다른 분야에서는 성능이 떨어진 경우도 발견됐는데, 이는 데이터셋에 탈옥 샘플이 포함됐거나 데이터셋의 특성 차이 때문으로 알려졌다. 

전반적으로 로라-가드는 훈련 효율성을 극대화하는 것은 물론, 이중 경로 설계를 통해 미세조정 중 발생하는 망각 현상 등을 방지할 수 있다는 설명이다.

마크테크포스트는 "특히 제한된 리소스 문제가 생길 수밖에 없는 온디바이스 AI 환경에서 장치에 탑재된 LLM의 안전성을 강화하는 효과적인 방법으로 주목받고 있다"라고 평했다.

한편 삼성전자는 음성 비서 빅스비에 통합할 자체 LLM을 개발 중인 것으로 알려졌다. 이번 연구가 온디바이스 AI에 가드레일을 효과적으로 적용하는 위한 기술이라는 점을 감안하면, 삼성은 매개변수 100억개 이하의 소형언어모델(sLM)을 출시할 가능성이 크다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지