키프레이머로 생성된 애니메이션 이미지 (사진=애플)
키프레이머로 생성된 애니메이션 이미지 (사진=애플)

애플이 일반 대형언어모델(LLM)로도 정지 이미지를 동영상으로 만드는 혁신적인 인공지능(AI) 도구를 공개했다. ‘생성 AI’ 본격 적용을 위해 관련 기술 개발에 속도를 내는 모습이다. 

벤처비트는 14일(현지시간) 애플이 대형언어모델(LLM)을 활용해 텍스트 프롬프트를 기반으로 이미지를 애니메이션으로 바꾸는 AI 도구 ‘키프레이머(Keyframer)’를 공개했다고 보도했다. 해당 논문은 아카이브에 게재됐다.

이에 따르면 키프레이머는 텍스트나 이미지 입력으로부터 비디오를 생성하는 구글의 ‘루미에르(Lumiere)’, 스태빌리티 AI의 ‘스테이블 비디오 디퓨전(Stable Video Diffusion)’, 메타의 ‘에뮤(Emu)’와 같은 비디오 생성 AI 모델이 아니다. 

대신 LLM의 '코드 생성' 기능을 활용, 텍스트 프롬프트로 정적 이미지에 애니메이션을 적용하는 새로운 AI 도구다. 즉 이미지나 동영상 생성 AI가 아니라도, 키프레이머를 적용하면 언어 모델로 동영상을 만들 수 있다.

키프레이머는 'JPEG'와 같은 픽셀 기반의 파일이 아닌, 수학 좌표를 통해 이미지를 표현하는 'SVG' 파일 포맷을 지원한다. 여기에 웹페이지를 만들 듯 CSS 코드로 이미지 좌표를 이동, 동영상처럼 움직이게 하는 방식이다.

실제로 오픈AI의 'GPT-4'를 사용해 자연어 프롬프트로 CSS 애니메이션 코드를 생성, 입력 SVG 이미지를 애니메이션으로 바꾼다.

사용자가 SVG 이미지를 업로드하고 ‘구름을 왼쪽으로 천천히 이동시키세요’와 같은 텍스트 프롬프트를 입력하면, 키프레이머가 해당 애니메이션을 실행하는 코드를 생성한다. 그다음 사용자는 CSS 코드를 직접 편집하거나 자연어로 새 프롬프트를 추가하여 애니메이션을 다듬을 수 있다. 

CSS 코드에 대한 이미지 렌더링 (사진=애플)
CSS 코드에 대한 이미지 렌더링 (사진=애플)

애플은 “키프레이머를 사용하면 사용자는 전체 애니메이션을 미리 계획할 필요 없이 순차적 프롬프트를 통해 디자인을 반복적으로 개선할 수 있다”라고 설명했다.

한편 이번 논문 발표는 최근 애플의 AI 노력을 잘 보여 준다. 지난주에는 멀티모달 LLM 기능을 활용해 텍스트 프롬프트로 이미지에서 픽셀 수준 편집을 수행하는 AI 모델 ‘MGIE’를 출시해 화제가 됐다.

또 지난해 12월에는 짧은 비디오에서 3D 아바타 애니메이션을 생성할 수 있는 생성 AI 기술 ‘헉스(HUGS)’와 아이폰이나 아이패드 등 메모리가 제한된 장치에서 LLM을 로컬로 실행하는 온디바이스 AI 기술을 공개해 좋은 평가를 받았다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지