(사진=BAAI)
(사진=BAAI)

중국에서도 대형세계모델(LWM)을 개발했다는 주장이 나왔다. 그러나 사실은 텍스트 외에도 이미지와 영상을 읽는 멀티모달모델(LMM)에 불과했다. 하지만 중국에서 LMM을 출시한 것은 처음이라며 미국과의 기술 격차를 줄였다고 강조했다.

신화통신과 사우스차이나모닝포스트 등은 21일 비영리단체인 베이징 인공지능아카데미(BAAI)가 "멀티모달 세계모델 '에뮤3(Emu3)'를 출시했다"라며 "이는 중국 기업 중 최초로 멀티모달모델을 출시한 사례"라고 보도했다.

왕 중위안 BAAI 이사는 "이미지, 텍스트, 비디오를 개별 공간으로 토큰화함으로써, 우리는 멀티모달 시퀀스를 혼합해 처음부터 단일 트랜스포머를 훈련했다"라고 밝혔다. 또 기존 이미지 생성에 사용한 확산(Diffusion) 모델과는 다른 방식이라고 강조했다. 

그는 이를 "최근 몇년 동안 가장 큰 기술적 기여"라고 극찬했다. 서로 다른 데이터 유형을 처리하기 위한 별도의 모델이 필요 없기 때문에 훈련 프로세스를 간소화하고 효율성을 높인다는 설명이다.

또 이미지 생성에서 '스테이블 디퓨전' 등과 같은 모델을 능가하고, 이미지 이해와 생성에서 멀티모달모델 '라바(LLaVA)'보다 뛰어나다고 밝혔다.

하지만 이들이 주장하는 방식은 '디퓨전 트랜스포머'로 알려진 것으로, 이미 구글이 2021년 논문으로 발표한 내용이다. 구글은 물론 오픈AI도 지난 2월 공개한 소라에 이 기술을 적용하는 등 최근 LMM에는 보편적으로 적용하는 기술이다.

또 중국에서는 알리바바가 최근 20분 길이의 영상을 분석하는 LMM '큐원2-VL'를 공개한 바 있다. 에뮤3가 중국 최초 LMM이라는 말도 근거가 희박하다.

게다가 이들이 주장하는 LWM은 LMM보다 한발 더 진보한 공간지능(spatial Intelligence)을 의미한다. 이 분야의 세계적인 대가인 페이페이 리 스탠포드대학교 교수나 얀 르쿤 메타 수석과학자도 아직 모델을 완성했다고 발표한 적은 없다.

왕 이사는 "미래에는 멀티모달 세계 모델이 로봇 두뇌, 자율 주행, 대화 및 추론과 같은 응용 프로그램을 촉진할 것"이라고 덧붙이기는 했다.

하지만 중국 매체들은 이를 통해 중국이 미국의 기술 제재에도 불구하고 기술 격차를 많이 줄였다고 주장했다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지