희소 오토인코더를 통한 패턴 매칭 (사진=오픈AI)
희소 오토인코더를 통한 패턴 매칭 (사진=오픈AI)

오픈AI가 'GPT-4'의 내부 작동 방식을 해석할 수 있는 동작 패턴 1600만개를 찾았다고 전했다. 이를 통해 대형언어모델(LLM) 내부 작동원리를 밝히는 단서를 마련했다고 밝혔다.

오픈AI는 6일(현지시간) 홈페이지를 통해 '희소 오토인코더의 확장 및 평가(Scaling and evaluating sparse autoencoders)'라는 연구 결과를 공개했다.

일반적인 소프트웨어는 인간의 설계를 기반으로 개발하기 때문에 각 기능의 메커니즘을 이해한 후 기능을 수정하거나 평가할 수 있다.

반면 AI 개발에서는 신경망 학습 알고리즘 자체는 인간이 설계하지만 신경망 학습은 자동으로 수행되기 때문에, 완성된 신경망의 작동 방식은 인간이 해석하기가 어렵고 수정이나 평가도 어렵다. 이 때문에 LLM 내부는 '블랙박스'라고 불린다.

구체적으로 AI 모델 신경망을 이해하고 해석하려면 먼저 신경 계산에 유용한 구성 요소를 찾아야 한다. LLM이 작동하면 내부 상태는 명확한 의미가 없는 긴 숫자 목록(뉴런)으로 구성된다. 단어가 문자 결합으로 만들어지고, 문장이 단어 결합으로 만들어는 것과 같다. AI 모델의 모든 특징도 뉴런 결합으로 만들어지며, 내부 상태는 특징 결합으로 만들어진다. 신경망을 구성하는 뉴런들의 결합으로 구성된 특징별로 분류하면 해석 가능한 패턴을 찾아낼 수 있다.

그러나 이런 특징을 인간이 일일히 식별하는 것은 매우 어렵다.

따라서 오픈AI은 "희소 오토인코더를 사용, 여기에서 식별된 패턴을 통해 대략적인 개념 맵을 얻는 데 성공했다"라고 밝혔다. 이를 통해 인간이 이해하기 쉬운 개념으로 활성화 패턴을 표시했다고 설명이다.

오픈AI는 최첨단 LLM에서 수천만개의 특징으로 확장할 수 있는 희소 오토인코더를 구축, 이를 'GPT-2 스몰(Small)'과 GPT-4에 적용했다. 그 결과, 특히 GPT-4에 적용한 희소 오토 인코더에서 GPT-4의 1600만개의 특징을 찾아낼 수 있었다고 전했다. 

현재 희소 오토인코더를 통해 GPT-4를 활성화하면, 관련 패턴만 작동하기 때문에 약 10배 적은 연산량으로 훈련된 모델과 동등한 성능을 보인다는 설명이다. 

하지만 오픈AI는 “이 방법으로도 GPT-4의 동작 전체를 해석하는 것은 불가능하며, 신경망을 이해하는 데는 더 많은 작업이 필요하다”라고 밝혔다.

“그러나 이 연구는 생성 AI의 ‘블랙박스’를 이해하고 잠재적으로 보안을 개선하는 또 다른 단계”라고 강조했다.

한편 오픈AI의 발표 내용은 지난달 앤트로픽의 연구 결과와 흡사하다.

앤트로픽 역시 희소 오토인코더를 통해 LLM에서 해석 가능한 특징을 추출, 내부 작동 방식 탐색 과정을 공개했다.

앞서 구글도 LLM 내부를 탐색할 수 있도록 신경망을 시각화하는 도구 ‘모델 익스플로러(Model Explorer)’를 오픈 소스로 출시했다.

이처럼 AI 모델의 블랙박스를 해결하려는 시도는 기술 발전과 함께 충분한 컴퓨팅 리소스가 확보된 데 따른 것이다. 특히 AI 안전과 투명성에 대한 문제가 잇달아 지적되며, 첨단 프론티어 모델을 만드는 기업에서는 필수적인 연구 분야가 돼가고 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지