'생성 인공지능(AI)'이 지난달 28일(현지시간)부터 9일까지 미국 루이지애나 뉴올리언스에서 열리는 '신경정보처리시스템학회(NeurIPS) 2022'에서 초미의 관심사로 떠올랐다.
NeurIPS는 세계 최대의 머신러닝 학회로, 논문 채택률이 약 25%에 불과할 만큼 경쟁률이 높고 권위를 인정받는 행사다.
벤처비트는 올해 NeurIPS에 무려 9634건의 논문이 제출돼 2900건 이상이 채택됐고, 이 가운데 13건이 우수 논문상을 수상했다고 4일(현지시간) 전했다.
특히 우수 논문 가운데는 빅테크 기업과 세계적인 연구소가 발표한 것이 많아 눈길을 끌었다.
엔비디아는 텍스트 프롬프트로 명령하면 '마인크래프트' 게임에서 작업을 수행할 수 있는 AI 에이전트 ‘마인도조’를 공개했다. 마인도조는 방대한 양의 비디오 데이터를 학습 데이터로 사용해 기계가 다양한 작업을 수행하도록 훈련하는 데 사용할 수 있는 기술이다. 생성 AI의 수준이 사람의 행동을 보고 따라 하는 단계로 급진전한 모습을 보여준다.
엔비디아는 메타버스 응용 프로그램을 만들기 위해 2D 이미지에서 충실도가 높은 3D 모델을 생성할 수 있는 모델인 ‘겟3D’도 공개했다. 겟3D는 1개의 2D 이미지 입력으로 모든 토폴로지와 고품질 3D 폴리곤 메쉬를 합성할 수 있는 3D 생성 모델이다. 2D 이미지에서만 훈련되지만 복잡한 세부 사항과 높은 다각형 수를 가진 3D 모양을 생성할 수 있다.
이 회사는 또 2D 이미지를 사용자가 쉽게 수정할 수 있는 3D 개체로 변환하는 AI 도구를 공개했다. '3D 모마'라고 불리는 이 기술은 건축가, 디자이너, 아티스트, 게임개발자 등이 개체를 그래픽 엔진으로 빠르게 가져와 작업을 시작하고, 크기를 수정하고, 재료를 변경하거나 다양한 조명 효과를 실험할 수 있도록 한다.
3D 모마는 정지 사진을 물체나 장면의 3D 모델로 재구성하는 기술인 '인버스 렌더링(inverse rendering)'을 통해 작업 속도를 높인다. GPU 가속을 통해 AI 모델을 훈련해 2D 정보를 3D 그래픽으로 정의하는 데 사용되는 삼각형 메시(mesh)로 조각화하는 방법을 학습하고 해당 작업을 수행한다.
구글은 사실적인 이미지를 생성하는 텍스-이미지 확산 모델인 ‘이마젠’에 대한 논문을 발표했다. 구글의 이마젠은 텍스트를 이해하는 대형 변환기 언어모델의 성능을 기반으로 정확도 높은 초해상도 이미지를 생성하는 확산 모델을 결합한다. 새로운 텍스트 설명을 제공하면 신경망은 이미지를 반복적으로 생성해 학습한 내용을 기반으로 텍스트와 가장 근접하게 일치할 때까지 이미지를 변경한다.
이마젠을 통해 텍스트 전용 말뭉치로 사전 훈련된 거대한 언어모델의 텍스트 임베딩이 모델 훈련에 이미지-텍스트 데이터만 사용하는 것보다 텍스트-이미지 합성에 효과적이라는 게 구글의 설명이다.
'앨런 AI 연구소'도 생성 AI 대열에 합류했다. 앨런 AI 연구소는 주어진 공간의 사양에 맞는 다양한 3D 평면도를 대화형으로 생성할 수 있는 프레임워크인 ‘프록터’에 대한 논문으로 주목을 받았다. 프록터는 108가지 항목과 1633개의 상호작용 가능한 인스턴스로 구성된 자산 라이브러리를 사용해 물리적으로 가능하고 자연스러우며 사실적으로 객체를 배치한 평면도를 자동으로 생성한다.
한편 'AI의 아버지'로 불리는 제프리 힌튼 토론토대 교수는 NeuralPS의 마지막 기조 연설에서 컴퓨팅의 미래에 대해 소개했다. 그는 “컴퓨팅의 미래는 아날로그”라며 "내가 생각하는 것은 완전히 다른 유형의 컴퓨터를 보게 될 것이라는 것이다. 수 년 안으로는 힘들겠지만, 완전히 다른 유형의 컴퓨터를 연구해야 할 이유가 있다"라고 말했다.
힌튼 교수는 “디지털 컴퓨터는 우리에게 매우 유용할 수 있는 모든 종류의 가변적이고, 확률적이며, 불안정하고, 아날로그적인 하드웨어의 속성을 놓쳤다는 것을 의미한다”며 “이러한 것들은 명령 수준에서 정확히 동일한 방식으로 작동하는 두 개의 다른 하드웨어 비트를 허용하기에는 너무 신뢰할 수 없다”고 주장했다.
그는 “미래의 컴퓨터 시스템은 다른 접근 방식을 취할 것”이라며 “즉 불확실성의 요소를 통합할 수 있고 시간이 지남에 따라 발전할 수 있는 아날로그 요소를 갖는다는 의미에서 모든 컴퓨터는 신경망을 나타내는 소프트웨어와 하드웨어의 긴밀한 결합이 될 것이다”고 설명했다.
박찬 위원 cpark@aitimes.com
