동영상 생성 인공지능(AI) 분야에서 중국 스타트업들이 미국 경쟁사들을 제치고 상위권을 차지하고 있는 것으로 나타났다. 런웨이와 루마AI 등 미국의 유명 스타트업들이 수십억달러 투자 유치를 추진 중인 가운데, 실제 영상 모델 성능은 중국의 바이트댄스나 콰이쇼우 등이 앞서 있다는 평가다.
디 인포메이션은 7일(현지시간) 아티피셜 애널리시스(Artificial Analysis)의 텍스트-영상 리더보드에서, 상위 20위권 중 14개 모델이 중국 기업이 개발한 것으로 나타났다고 소개했다.
바이트댄스의 모델은 1위와 4위를 차지했으며, 콰이쇼우의 ‘클링AI(KlingAI)’도 5위와 7위에 올랐다.
반면, 런웨이의 ‘젠 3 알파(Gen 3 Alpha)’는 22위, 루마의 ‘레이1(Ray 1)’은 24위로 쳐졌다.
미국에서는 '비오 3'를 앞세운 구글이 2위, 3위, 6위에 랭크됐고, 오픈AI의 ‘소라(Sora)’는 10위에 올라 자존심을 지켰다. 하지만, 전반적인 순위는 중국에 밀리는 양상이다.
이는 중국이 지난해 2월 소라 공개 이후 이 분야에서 뒤처진 것을 심각하게 받아들이고, 국가적인 노력을 기울인 결과다. 그러나 미국은 저작권 문제나 비즈니스 확장 등에 집중, 상대적으로 모델 출시는 드물었다.
하지만, 판도가 바뀔 가능성은 크다. 영상 생성 AI 모델은 영화 스튜디오, 광고업계, 크리에이터들 사이에서 활용도가 높아지면서 기술 고도화와 투자 집중이 예상된다.
특히, 텍스트 모델보다 훨씬 더 많은 컴퓨팅 자원을 요구하기 때문에 고성능 GPU 확보가 핵심이다.
전문가들은 중국 기업들이 언어 모델과 영상 모델을 동시에 개발하기에 컴퓨팅 자원이 부족할 수 있다고 분석한다. 워싱턴의 AI 싱크탱크 관계자는 “중국 기업들이 수백만 사용자에게 영상 모델을 제공하기에는 'H20' 칩이 충분하지 않다”라고 지적했다.
박찬 기자 cpark@aitimes.com
