(사진=AI21)
(사진=AI21)

인공지능(AI) 에이전트를 활성화하기 위해 트랜스포머를 대체할 수 있는 아키텍처가 필요하다는 주장이 나왔다.

벤처비트는 11일(현지시간) 이스라엘 스타트업 AI21 랩스의 아리 고센 CEO가 “AI 에이전트 구축에는 트랜스포머 아키텍처가 적합하지 않다”라고 주장한 내용을 소개했다.

고센 CEO는 “트랜스포머는 많은 토큰을 생성해서 작동하는 원리로, 이는 비용이 매우 많이 들어가는 구조”라며, 트랜스포머보다 많은 데이터를 저비용으로 처리할 수 있는 새로운 아키텍처가 필요하다고 강조했다.

AI21은 '잠바(JAMBA)' 아키텍처를 사용하여 파운데이션 모델을 개발하고 있다.

트랜스포머 기반 아키텍처를 활용한 기존 모델들과 달리, 이 모델은 트랜스포머 아키텍처에 'SSM(State Space Model)' 아키텍처를 결합한 것이 특징이다. 컨텍스트 창이 커짐에 따라 추론이 느려지고 메모리 공간이 많이 필요한 트랜스포머 아키텍처의 약점을 보완하기 위해  '맘바(Mamba) SSM' 아키텍처를 트랜스포머에 결합했다. 

카네기 멜론대학교 및 프린스턴대학교 연구진이 개발한 맘바는 더 빠른 추론 시간과 긴 컨텍스트 창을 제공할 수 있다. 맘바는 트랜스포머 모델의 핵심이 되는 '어텐션 메커니즘' 대신, 다양한 데이터를 우선 순위에 따라 정리하고 입력에 가중치를 부여하며 메모리 사용을 최적화하고 GPU의 처리 능력을 활용할 수 있다.

특히 고센 CEO는 "맘바나 잠바와 같은 대안 아키텍처가 AI 에이전트 구조를 더 효율적이고 저렴하게 만들 수 있다"라고 말했다. 맘바 기반 모델은 메모리 성능이 우수해, 다른 모델과 연결되는 에이전트가 더 잘 작동할 수 있게 한다는 설명이다.

일부 오픈 소스 개발자들도 최근 맘바 기반 모델을 출시하기 시작했다. 프랑스의 미스트랄 AI는 지난 7월 코딩 모델 ‘코데스트랄 맘바 7B’를 출시했으며, 8월에는 UAE에서 맘바 기반 모델인 ‘팰컨 맘바 7B’가 등장했다. 

AI21이 8월 공개한 맘바 기반의 ‘잠바 1.5’ 모델은 AI 에이전트 시스템을 만드는 데 최적화됐다. 함수 호출이나 도구 사용, JSON 모드, 인용 모드 및 구조화된 문서 개체와 같은 에이전트 기능을 지원한다.

고센 CEO는 “AI 에이전트가 아직 상용 단계에 진입하지 못한 주요한 이유는 신뢰성 부족 때문”이라고 지적했다.

특히 “트랜스포머 모델을 분석하면 그것이 매우 확률적이라는 것을 알 수 있으며, 따라서 어떤 오류도 지속적으로 반복될 것”이라며 아키텍처 변환이 필요하다고 강조했다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지