DLM (사진=인셉션)
DLM (사진=인셉션)

이미지와 비디오, 오디오 생성에 주로 활용되던 '확산(diffusion)' 기술을 적용한 새로운 언어 모델이 등장했다. 이 모델은 기존의 대형언어모델(LLM)보다 최대 10배 더 빠르게 실행되며, 비용도 10배 절감할 수 있는 혁신적인 기술이라는 주장이다.

테크크런치는 26일(현지시간) 스탠포드대학교 컴퓨터과학 교수인 스테파노 에르몬이 설립한 AI 스타트업 인셉션이 확산 기술을 기반으로 한 새로운 언어 모델 ‘DLM(Diffusion-based Language Model)’을 개발했다고 보도했다. 이들의 연구 결과는 지난해 온라인 아카이브에도 공개됐다.

현재 생성 AI 모델은 크게 ▲LLM ▲확산 모델 두가지로 나눠진다. LLM은 트랜스포머(transformer) 아키텍처를 기반으로 텍스트 생성에 활용된다.

확산 모델은 미드저니와 오픈AI의 '소라'와 같은 시스템을 구동하며, 주로 이미지와 비디오, 오디오 생성에 사용된다.

에르몬 교수는 기존 LLM이 확산 기술에 비해 상대적으로 속도가 느리다는 점에 착안, 확산 모델을 텍스트 생성에 적용하는 방법을 연구했다.

LLM은 순차적으로 단어를 생성하기 때문에, 첫번째 단어를 생성하기 전에는 두번째 단어를 만들 수 없고, 첫 두단어가 생성되기 전에는 세번째 단어를 만들 수 없다. 반면, 확산 모델은 이미지와 같은 생성할 데이터의 대략적인 형태를 먼저 만든 뒤 노이즈를 제거하는 방식으로 이를 선명하게 완성한다.

에르몬은 확산 모델을 사용하면 대규모 텍스트 블록을 병렬로 생성하고 수정할 수 있을 것이라는 가정을 바탕으로 DLM을 연구했다.

인셉션은 DLM이 기존 LLM보다 최대 10배 빠르고 10배 더 적은 비용으로 실행될 수 있다고 주장했다. 소형 코딩 모델은 오픈AI의 'GPT-4o' 미니와 동일한 성능을 보이면서도 10배 더 빠르며, 미니 모델은 메타의 '라마 3.1 8B'와 같은 오픈 소스 모델을 능가하며 초당 1000개 이상의 토큰을 처리한다고 밝혔다.

주요 모델과 속도 비교 (사진=인셉션)
주요 모델과 속도 비교 (사진=인셉션)

에르몬 교수는 "우리 모델이 GPU를 훨씬 더 효율적으로 활용할 수 있다는 사실을 알게 됐다"라며 "이것은 중요한 변화로, 사람들은 이제 언어 모델을 구축하는 방식을 바꿀 것"이라고 강조했다.

인셉션은 API, 온프레미스 및 엣지 디바이스 배포 옵션, 모델 미세조정 지원, 다양한 사용 사례를 위한 즉시 사용 가능한 DLM 모음 등을 제공하고 있다.

또 AI 지연 시간을 줄이고 속도를 향상해야 하는 중요한 요구 사항을 해결함으로써 이미 여러 고객, 특히 이름이 공개되지 않은 포춘 100대 기업을 확보했다고 전했다.

인셉션은 그동안 스텔스, 즉 비공개 상태로 회사를 운영했다. 이번에 이처럼 전면으로 나섰다는 점은 투자 유치에 나선 것으로 볼 수 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지