NICKEL & DiME 방법의 오버뷰 (사진=UNIST)
NICKEL & DiME 방법의 오버뷰 (사진=UNIST)

울산과학기술원(UNIST, 총장 박종래)은 인공지능(AI) 대학원 유재준 교수팀이 컴퓨터 비전 학회 'ECCV 2024'에서 3편의 논문을 발표했다고 8일 밝혔다. 

3편의 논문은 각각 이미지 생성 AI의 경량화, 하이브리드 비디오 생성모델, 웹 페이지를 자동으로 생성하는 멀티모달 모델에 관한 것이다. 

11배 압축에 대한 생성 이미지 결과 (사진=UNIST)
11배 압축에 대한 생성 이미지 결과 (사진=UNIST)

■ 지식 증류를 통한 GAN 효율성 향상을 위한 듀얼 방법 접근 방식

유재준 교수팀은 분포 매칭(DiME)과 지식 교환 및 학습을 통한 네트워크 상호 압축(NICKEL) 기법을 도입해 이미지 하나하나 비교하지 않고 분포를 비교하는 방식을 사용해 안정성을 높였다. 

DiME기법은 효율적인 분포 매칭을 위한 임베딩 커널로 지식 증류(distillation)에 효과적이다. 또 NICKEL 기법은 생성기와 분류기 간의 상호작용을 최적화해 경량화된 모델에서도 높은 성능을 유지하게 돕는다.

두 기법을 결합한 결과, 323배 압축된 GAN 모델도 기존과 동일한 수준의 고품질 이미지를 생성할 수 있었다고 전했다.

유 교수는 “323배 압축된 GAN이 기존 수준의 고품질 이미지를 만들어낸다는 점을 입증했다”라며 “엣지 컴퓨팅이나 저전력 디바이스에서도 고성능 AI를 사용할 수 있는 길을 열었다”라고 말했다.

하이브리드 비디오 오토인코더 구조의 오버뷰
하이브리드 비디오 오토인코더 구조의 오버뷰

■ 2D 트리플레인 및 3D 웨이블릿 표현을 사용한 하이브리드 비디오 확산 모델

고성능 컴퓨팅 자원이 부족한 환경에서도 고해상도 영상을 효율적으로 생성할 수 있는 하이브리드 비디오 생성 모델(HVDM)을 개발했다. 

기존 비디오 생성 모델들은 고성능 컴퓨팅 자원에 의존해 고해상도 영상을 생성했지만, HVDM은 제한된 자원으로도 자연스럽고 고품질의 영상을 구현하는 데 성공했다. CNN 기반 오토인코더 방식이 가지는 한계를 극복한 것이다.

연구팀은 UCF-101, 스카이타임랩스, 타이치 등 비디오 벤치마크 데이터셋을 통해 HVDM의 우수성을 입증했다. HVDM은 기존 기술보다 더 높은 비디오 품질을 구현하며, 자연스러운 영상 흐름과 사실적인 디테일에서 뛰어난 성능을 보여줬다.

유 교수는 “HVDM은 고성능 컴퓨팅 자원이 부족한 상황에서도 고해상도 비디오를 효율적으로 생성할 수 있는 획기적인 모델”이라며 “비디오 제작 및 시뮬레이션 같은 산업 분야에서 널리 활용될 수 있을 것”이라고 전했다.

모델의 전반적인 학습 구조 도면 (사진=UNIST)
모델의 전반적인 학습 구조 도면 (사진=UNIST)

■언 어 모델의 디자인 능력을 콘텐츠 인식 레이아웃 생성에 연결

연구팀은 적은 데이터로도 광고 배너와 Web-UI 디자인을 자동 생성할 수 있는 멀티모달 레이아웃 생성 모델도 개발했다. 이 모델은 이미지와 텍스트를 동시에 처리해 사용자 입력만으로 적절한 레이아웃을 자동 생성할 수 있다.

기존 모델들은 데이터 부족으로 텍스트와 이미지 정보를 충분히 처리하지 못했다. 이에 연구팀은 레이아웃 정보를 HTML 코드 형식으로변환했다. 언어 모델의 사전 학습 데이터를 최대한 활용해 적은 데이터로도 뛰어난 성능을 발휘할 수 있는 자동 생성 파이프라인을 구축했다.

사전 학습 과정에서 이미지 캡션 데이터셋을 활용하고, Depth-Map과 ControlNet 기법을 결합해 데이터 증강을 통해 성능을 극대화했다. 벤치마크 테스트 결과, 최대 2800%의 성능 향상을 기록했다.

유 교수는 “5000장 정도의 적은 데이터로도 기존 6만 장 이상의 데이터를 필요로 했던 모델보다 더 나은 성능을 발휘했다”라며 “전문가뿐만 아니라 일반 사용자도 쉽게 사용할 수 있어 광고 배너와 웹 UI 디자인 자동화에 큰 혁신을 가져올 것”이라고 강조했다.

한편, 본 연구는 한국연구재단(NRF), 과학기술정보통신부(MSIT), 정보통신기획평가원(IITP), UNIST의 지원을 받아 수행됐다. 

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지