(사진=퀄컴)
(사진=퀄컴)

생성 인공지능(AI) 기술을 스마트폰과 같은 모바일 기기로 가져오기 위한 경쟁이 시작됐다.

최근 대형 기술 기업이 운영하는 서버의 클라우드를 통하지 않고 실행하는 이른바 온디바이스 AI에 몰두하는 기업이 늘어나는 가운데 퀄컴이 모바일 기기에서 실행되는 생성 AI 애플리케이션을 선보여 눈길을 끌고 있다.

퀄컴은 20일(현지시간) 캐나다에서 열린 컴퓨터 비전 및 패턴 인식에 관한 연례회의 'CVPR 2023'에서 모바일 기기에서 실행되는 새로운 이미지 생성 모델, 대규모 언어 모델 기반 피트니스 코치, 확장 현실(XR)을 위한 3D 재구성 도구 등 다양한 생성AI 애플리케이션을 선보였다.

퀄컴의 가장 큰 도전은 15억 매개변수의 이미지 생성 AI 모델인 ‘컨트롤넷(ControlNet)’을 스마트폰에서 실행하는 것이었다. 컨트롤넷은 텍스트 설명과 참조 이미지를 입력해 이미지 생성을 정밀하게 제어할 수 있는 AI 모델이다.

사진을 업로드하고 편집 방법을 설명하는 텍스트 입력을 추가하면 12초 이내에 새 이미지를 생성할 수 있다.

예를 들어 ‘노란 고양이, 사실적인, 4k’라는 설명과 함께 새끼 고양이의 기본 스케치를 업로드하면 몇 초 안에 컨트롤넷을 실행하는 스마트폰이 스케치를 훨씬 더 인상적인 이미지로 변환한다.

텍스트 프롬프트와 참조 이미지를 입력으로 이미지를 생성하는 컨트롤넷 (사진=퀄컴)
텍스트 프롬프트와 참조 이미지를 입력으로 이미지를 생성하는 컨트롤넷 (사진=퀄컴)

퀄컴은 컨트롤넷이 모델 아키텍처 전반에 걸쳐 퀄컴 AI 스택 및 AI 엔진과 같은 전문 AI 소프트웨어와 실제 장치의 AI 하드웨어 가속기로 구성된 AI 최적화 스택에 의해 구동된다고 설명했다.

또 퀄컴은 오픈AI의 챗GPT와 유사한 LLM을 사용해 실시간으로 자연스럽고 상황에 맞는 상호 작용이 가능한 디지털 피트니스 코치를 만드는 방법을 보여주었다. 퀄컴은 사용자가 자신이 운동하는 모습을 비디오로 촬영하고 이 데이터는 촬영 기기에서 동작 인식 모델에 의해 처리된다고 설명했다.

그런 다음 인식된 작업을 기반으로 이를 LLM에 입력되는 프롬프트로 변환해 디지털 피트니스 코치가 운동이 진행됨에 따라 사용자에게 피드백을 제공할 수 있도록 한다.

퀄컴은 피트니스 활동을 감지하도록 훈련된 새로운 비전 모델, 시각적 개념에 기반한 언어를 생성하도록 훈련된 언어 모델, 실시간 피드백을 촉진하기 위해 이 두 양식 간의 상호 작용을 조정하는 오케스트레이터 등 세 가지 요소로 이를 가능하게 했다고 설명했다.

디지털 피트니스 코치 (영상=퀄컴)

증강 현실, 가상 현실 및 혼합 현실을 일컫는 포괄적인 용어인 XR용 3D 재구성 도구를 사용하면 개발자가 모바일 장치에서 거의 모든 환경의 매우 상세한 3D 모델을 만들 수 있다. 개별 이미지에서 깊이 맵을 생성하고 이를 3D 장면 표현으로 결합해 3D 모델을 생성하는 방식으로 작동한다.

퀄컴은 생성된 3D 모델은 다양한 AR 및 VR 애플리케이션에서 사용될 수 있다고 말했다. 이 인식 기술은 몰입형 경험을 촉진하고 메타버스에 광범위하게 적용할 수 있다.

XR용 3D 재구성 도구 (영상=퀄컴)

퀄컴은 XR 환경을 위한 얼굴 아바타 생성에 생성 AI를 추가로 적용했다. 누군가의 얼굴을 하나 이상의 2D 사진으로 찍고 그 이미지에 개인화된 메쉬와 질감을 적용하고 3D 얼굴 아바타로 변환할 수 있는 모델을 선보였다.

아바타는 눈과 입의 움직임을 추적하는 헤드셋 카메라를 사용하여 사용자의 행동을 실시간으로 렌더링하고 아바타 자체에서 이를 재현할 수도 있다. 퀄컴은 이 모델의 목표가 사용자가 스냅드래곤 XR 플랫폼에서 메타버스 및 인간-기계 인터페이스에서 사용할 디지털 인간 아바타를 만들 수 있도록 하는 것이라고 설명했다.

XR용 얼굴 아바타 생성 (사진=퀄컴)
XR용 얼굴 아바타 생성 (사진=퀄컴)

마지막으로 퀄컴은 AI를 사용하여 운전자 모니터링 기술을 개선하는 방법을 보여주었다. 위험한 운전 조건을 감지할 수 있는 컴퓨터 비전 모델을 만들고 이를 산만이나 졸음의 징후 등 운전자의 상태를 실시간으로 모니터링하는 능동형 적외선 카메라와 결합했다. 스냅드래곤 라이드 플렉스 시스템 온 칩에서 실행되는 이 시스템은 위험한 운전을 감지할 때마다 운전자에게 경고할 수 있다.

운전자 모니터링 기술 (영상=퀄컴)

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지