(사진=셔터스톡)
(사진=셔터스톡)

대형언어모델(LLM)을 목적에 맞게 활용하기 위해 특정 데이터로 미세조정할 경우 원래 기억하던 정보를 잊어버리는 현상을 일명 ‘망각(catastrophic forgetting)’이라고 한다. 

이는 머신러닝에서 잘 알려진 골치 아픈 문제인데, 이를 방지할 수 있다는 미세조정 기술이 등장했다. 이를 통해 모델은 원래 취지대로 특정 영역뿐만 아니라 일반 지식 질문에 추론하고 답하는 능력을 겸비할 수 있게 된다는 설명이다.
 
벤처비트는 12일(현지시간) 음성 인공지능(AI) 에이전트 스타트업 테닉스(Tenyx)가 딥러닝에서 문제로 꼽히는 망각 현상을 해결하는 새로운 미세조정 방법을 공개했다고 보도했다.

일반적으로 사전 훈련 모델을 다른 데이터셋으로 미세조정하면 가중치가 새로운 데이터에 맞춰지면서 모델이 기존 훈련으로 습득한 정보를 날려 버리는 현상, 망각이 발생한다. 이는 당연히 LLM의 지식과 추론 능력을 저하한다.

이타마르 애럴 테닉스 CEO는 "결과적으로 미세조정한 모델은 특정 입력에 더 잘 응답할 수 있지만, 대신 일반적인 지식 및 추론 작업에 관해서는 제대로 작동하지 못하거나 잠재적으로 편향된 답변을 갑자기 생성할 수 있다"라고 지적했다.

또 영어 문장의 말뭉치로 사전훈련된 LLM을 나중에 구조적으로나 구문적으로 다른 코딩 언어 데이터셋으로 미세조정할 경우, LLM이 정보를 캡처하고 변환하고 새로운 정보를 출력하는 방식이 변경될 수 있다고 설명했다. 

아렐 CEO은 "이런 변경으로 결국 일관된 영어 생성 능력을 상실할 것"이라고 말했다.

최근에는 낮은 메모리 및 계산 요구 사항 때문에 마이크로소프트(MS)에서 개발한 매개변수 효율적 미세조정(PEFT) 기술 ‘로라(LoRA)’가 많이 사용된다. 로라는 미세조정 중 전체 가중치 대신 일부 가중치만을 조정해 이런 비용을 줄이는 방법이다. 즉, 모델 매개변수 전체를 업데이트하는 대신 모델 매개변수의 변경 사항만을 업데이트한다.

그러나 로라가 결코 망각을 완화하기 위한 기술이 아니라고 지적했다. 원래 훈련 데이터와 일치하지 않는 데이터에 대한 미세조정으로 일부 가중치를 업데이트하면 결국 왜곡을 식별하고 수정하기가 어렵다는 설명이다.

또 로라 및 기타 기존 방법을 통한 미세조정은 편향되고 유해한 모델 출력을 방지하는 데 필수적인 '인간 피드백 강화 학습(RLHF)'을 통해 설정된 안전 조치를 약화할 수 있다. "RLHF도 훈련 절차이기 때문에 미세조정 중 지식과 추론 능력만큼 영향을 받는다"라고 전했다.

반면 테닉스 미세조정 방법은 업데이트할 수 있는 모델 매개변수의 하위 집합을 결정, 새 데이터에 대한 미세조정을 진행함과 동시에 모델이 원래 훈련된 입력-출력 매핑을 거의 모두 유지한다는 설명이다.

그다음 플랫폼은 사전 훈련된 데이터에서 정보를 포착하는 방식을 방해하지 않을 공간으로 미세조정 중 가중치 업데이트를 적용한다.

아렐 CEO는 “새로운 데이터에 대한 미세조정으로 망각이 발생하지 않거나 최소화하기 위해, 사전 훈련된 LLM을 분석해 수십억개의 가중치 중 어떤 것이 어떻게 업데이트될 수 있는지를 결정한다”라고 밝혔다. 

이를 통해 네트워크 가중치의 하위 집합을 선택하고 선택된 뉴런의 업데이트를 제한할 수 있으며, 결과적으로 이전에 학습한 모든 정보를 효과적으로 유지한다는 말이다.

미세조정 기술간 안정성 평가 결과 (사진=테닉스)
미세조정 기술간 안정성 평가 결과 (사진=테닉스)

테닉스는 다른 기업의 미세조정 기술을 비교평가했다. 그 결과, 오픈AI는 66%, 투게더 AI는 94%, 로라는 91%나 안정성이 떨어진 데 반해, 테닉스 방식은 11%밖에 감소하지 않았다. 

숙련도에서도 마찬가지였다. 매개변수가 많은 오픈AI의 'GPT-3.5 터보'가 처음에는 더 뛰어났지만, 미세조정 후에는 테닉스의 '라마-2 7B'가 가장 능숙했다. 특히 지식 손실 측면에서는 오픈AI의 10%, 투게더 AI의 40%, 로라의 43%에 비해, 테닉스는 3%의 손실로 망각을 가장 많이 완화했다.

노아 굿맨 스탠포드대학교 부교수는 “망각은 딥 러닝에서 잘 알려진 문제이며, 크고 능력 있는 모델에도 여전히 영향을 미친다”라며 “테닉스는 이 과제를 해결하기 위한 중요하고 새로운 아이디어를 탐구하는 강력한 연구팀을 보유하고 있다"라고 말했다.

테닉스는 이 기술을 베타 버전으로 공개, 홈페이지에서 대기자 명단을 오픈 중이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지