에뮤 에디트 (사진=메타)
에뮤 에디트 (사진=메타)

메타가 텍스트 설명으로 이미지를 편집하고 비디오를 생성하는 강력한 인공지능(AI) 모델을 선보였다. 성능이 뛰어난 것은 물론 인스타그램이나 페이스북 등의 수억명 SNS 사용자를 통해 배포된다는 강점을 가졌다.

벤처비트는 16일(현지시간) 메타가 텍스트를 비디오로 만드는 '에뮤 비디오(Emu Video)'와 자연어로 이미지를 편집해주는 ‘에뮤 에디트(Emu Edit)’를 공개했다고 보도했다. 메타는 새로운 기능을 챗봇 '메타 AI'와 마찬가지로 인스타그램과 페이스북에 탑재할 예정이다. 

에뮤 에디트는 텍스트 설명을 기반으로 이미지를 정확하게 변경할 수 있다. 초보자라도 쉽게 사진에서 물체나 사람을 제거하거나 교체하고 텍스트까지 집어넣을 수 있다.

특히 에뮤 에디트는 편집 요청 영역만 정확하게 변경하고 관련 없는 픽셀은 그대로 유지하도록 설계됐다. 예를 들어 사용자가 야구 모자 사진에 ‘Aloha!!’라는 문구를 추가할 경우, 모자 자체는 원형을 유지한다. 어도비의 포토샵에서 가능했던 기능이다. 

에뮤 에디트는 동종 데이터셋 중 최대 규모인 1000만개의 합성 샘플 데이터셋을 학습했다. 이를 통해 로컬 및 전역 편집, 배경 추가 또는 제거, 색상 및 기하학적 변형, 객체 감지, 분할 등 다양한 편집 작업을 수행할 수 있다.

에뮤 비디오 (사진=메타)
에뮤 비디오 (사진=메타)

에뮤 비디오는 텍스트 입력이나 참조 이미지 입력, 또는 둘을 합친 상태로 사용할 수 있다. 이를 통해 4초 길이의 애니메이션 클립을 생성한다. 

예를 들어 텍스트 프롬프트에 따라 이미지를 생성한 후 다른 이미지를 더해 비디오를 만들 수 있다. 이 방식은 2개의 확산 모델을 사용해 초당 16프레임으로 512x512 4초 비디오를 생성하기 때문에 5개 모델을 사용했던 메타의 이전 비디오 생성 도구 ‘메이커비디오(Make-A-Video)’보다 구현이 더 간단하다.

에뮤 비디오로 생성한 클립은 에뮤 에디트를 사용해 편집도 가능하다. 사용자는 '같은 클립이지만 슬로우 모션으로' 등 자연어로 에뮤 에디트에 적용할 수정 사항을 설명하고 변경할 수 있다.

메타 연구진은 다른 모델에 비해 두 모델의 성능이 더 뛰어나다고 밝혔다. 논문을 통해 "우리 모델은 구글의 '이마젠(Imagen)' 대비 81%, 엔비디아의 '피오코(PYOCO)' 대비 90%, 메타의 '메이커비디오' 대비 96% 더 나은 성능을 발휘하며, 런웨이ML의 '젠2(Gen2)'나 피카 랩스의 비디오 솔루션보다 뛰어나다"라고 밝혔다.

현재 에뮤 비디오와 에뮤 에디트는 개발 단계에 있으며 출시 일정은 정해지지 않았다.

이 분야는 동영상 생성 AI의 대표 런웨이를 비롯해 어도비, 칸바 등의 경쟁 도구가 많이 있는 편이다. 그러나 접근성은 메타가 훨씬 앞선다. 인스타그램과 페이스북 사용자는 굳이 다른 사이트로 이동할 필요가 없이 바로 작업이 가능하다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지