주간 인공지능-12월1주 (제작=AI타임스)

인공지능(AI) 기술이 또 한 단계 발전했습니다. AI가 동영상을 보고 영상 속 동작을 배워서 따라 하게 만드는 기술이 나왔습니다방대한 양의 비디오를 학습데이터로 이용할 수 있도록 한 기법이 핵심입니다.

인공지능 연구소인 오픈AI와 컴퓨터 칩을 만드는 엔비디아가 지난주 이런 기술 연구 결과를 내놨습니다. 두 연구팀이 다 유명한 게임인 마인크래프트를 이용했습니다.

먼저 오픈AI는 7만시간 분량의 마인크래프트 게임 비디오를 이용해서 스스로 게임을 플레이하는 AI 봇을 만들었습니다. ‘마인크래프트AI’라고 이름이 붙은 이 봇은 게임상의 나무 베기, 도구 제작 등의 작업을 배워서 따라 할 수 있습니다.

(이미지=오픈AI)
(이미지=오픈AI)

그동안 AI을 훈련하는 데는 비디오 데이터를 쓰기 어려웠습니다. 글이나 사진과는 다르게 비디오는 어떤 행동을 하면 결과로 어떤 일이 일어난다는 식으로 동작의 단계마다 레이블(label)을 지정해줘야 AI가 알아듣기 때문입니다.

그런데 사람 손으로 이런 레이블을 일일이 단다면 엄청나게 많은 시간이 필요하기 때문에 충분한 양의 데이터 세트를 만들기가 어려워서 그동안 비디오를 통한 AI 훈련도 사실 불가능했습니다.

이 문제를 오픈AI와 엔비디아가 해결한 겁니다. 오픈AI는 우선 수작업으로 레이블을 단 비디오 데이터를 2000시간 분량으로 만들었습니다. 키보드와 마우스의 동작마다 레이블을 지정하는 방식으로요.

그런 다음에 이 레이블이 지정된 데이터 세트로 VPT(Video Pre-Training)라는 또 다른 신경망 모델을 훈련해서 그 모델이 인터넷에서 수집한 7만시간 분량의 다른 비디오 데이터에 레이블을 자동 지정하도록 했습니다이어서 이 레이블이 지정된 데이터로 마인크래프트 AI 봇을 훈련했습니다.

(이미지=엔비디아)
(이미지=엔비디아)

엔비디아도 오픈AI와 비슷한 방식으로 비디오 데이터를 형성했는데요, 특정한 비디오 클립을 마인크래프트 게임의 특정 활동과 연결하는 ‘마인클립(MineCLIP)’이라는 모델을 만들어서 레이블링 문제를 해결했습니다.

엔비디아가 오픈AI의 발표 사흘 뒤에 내놓은 모델의 이름은 마인도조(MineDojo)입니다. 이 인공지능 에이전트는 명령글을 입력하면 마인크래프트 게임에서 ‘사막에서 피라미드 찾기’나 ‘포털 구축’과 같은 지시받은 작업들을 해냅니다.

오픈AI와 엔비디아가 새로 개발한 기술은 현재 마인크래프트 게임에 국한돼 있지만 앞으로 AI가 비디오로 사람이 일하는 것을 관찰한 뒤에 동작을 따라 할 수도 있는 모방 학습의 길을 열었습니다.

이런 모방 학습으로 인공지능이 로봇 팔을 제어하거나 자동차를 운전하고, 웹 검색도 할 수 있도록 만들 수 있다고 하는데요, 그래서 이 기술이 주목됩니다.

이어서 기술 동향 전해드립니다.

기술 동향

(이미지=유튜브 캡처)
(이미지=유튜브 캡처)

실험실에서 배양한 인공 뇌 세포로 고전 탁구 게임 '퐁(Pong)'을 할 수 있게 됐습니다.

호주 스타트업 코티컬랩이 다중전극 어레이 실리콘에서 살아있는 뉴런을 배양한 생물학적 컴퓨터 칩 '디쉬브레인'을 컴퓨터에 연결해 퐁 게임 실행에 성공했습니다.

뉴런과 실리콘을 연결해 AI 생성하는 완전히 새로운 컴퓨팅 기술인데요, 인간처럼 생각하는 AI를 만들 수 있는 새로운 길을 열 수 있을 것으로 기대되고 있습니다.

아마존이 어린이를 위해 애니메이션 스토리를 생성하는 새로운 AI 도구인 크리에이트 위드 알렉사를 출시했습니다.

이 도구는 아마존의 에코 쇼장치에서 대화형 AI와 생성형 AI를 사용해 알렉사의 안내에 따라 어린이들이 선택한 애니메이션 캐릭터로 영상과 음악이 포함된 독특한 이야기를 만듭니다.

어린이는 알렉사, 이야기를 만들어요라는 간단한 문구를 말하고 몇 가지 옵션을 선택하게 되고 알렉사는 이에 따라 독창적인 이야기를 만들어 냅니다.

(이미지=디즈니)
(이미지=디즈니)

영상 속 배우의 나이를 조절해주는 AI 기술이 개발됐습니다.

디즈니가 TV나 영화에서 배우들의 시각적 나이를 바꿔주는 새로운 신경망을 만들었는데요, 이를 활용하면 TV 또는 영화 제작 비용과 시간을 대폭 줄일 수 있을 것으로 기대됩니다.

배우의 외모를 젊게 또는 나이 들어 보이게 바꿀 수 있습니다. 디즈니의 기술은 특히 움직이는 영상에 적용할 수 있어 기존 컴퓨터 그래픽 기술과는 다릅니다.

음악을 듣고 어울리는 춤을 만들어 주는 AI 안무가가 나왔습니다. 스탠포드 대학 연구원들이 음악을 입력하면 이에 맞춰 사실적이고 물리적으로 그럴듯한 춤을 만들어 주는 AI 도구 '엣지'를 공개했습니다.

엣지는 고품질의 안무를 만들어 내기 위해 음악 특징 추출기인 '주크박스' 모델과 이미지 생성 AI에 활용된 '확산 모델'을 사용합니다.

이어서 업계 주요 동향 전해드립니다.

주요 업계 동향

KAIST 안성진 교수 연구팀이 개발한 기술이 복잡한 상황에서 객체의 개념을 스스로 학습하는 장면 (사진=KAIST)
KAIST 안성진 교수 연구팀이 개발한 기술이 복잡한 상황에서 객체의 개념을 스스로 학습하는 장면 (사진=KAIST)

사람이 레이블링 하지 않아도 스스로 영상 속 객체를 식별할 수 있는 AI 기술이 한국과학기술원 연구진에 의해 개발됐습니다.

안성진 전산학부 교수 연구팀이 미국 럿거스대학교와 함께 개발한 기술인데요, 안 교수 연구팀에 따르면 이 모델은 복잡한 영상에 등장하는 각 객체에 대해 명시적인 레이블링이 없더라도 식별해내는 세계 최초의 AI 모델이라고 합니다.

AI가 환경에 대한 관측만으로 객체의 개념을 스스로 자가 학습하는 방식을 취하기 때문에 사람의 인식 과정과 비슷해서 차세대 인지 기술로 평가됩니다.

최근 AI 업계의 이목이 한 소송에 집중되고 있습니다. 마이크로소프트 자회사 깃허브가 만든 상업용 코드생성 AI 도구인 '코파일럿'을 둘러싼 소송입니다.

AI 훈련 과정에서 다른 이들이 오픈 소스로 공개한 코드를 가져다 쓰면서 개발자나 출처 명시 등의 라이선스를 지키지 않았기 때문에 불법 복제에 해당한다며 여러 개발자들이 집단 소송을 제기했는데요,

올들어 주목받고 있는 생성 AI는 모두 이런 공개된 데이터들을 기반으로 훈련했기 때문에 이 소송은 생성AI의 훈련 방식에 대한 근본적인 문제 제기로 해석될 수 있어서 법원의 판단이 주목되고 있습니다.

메타버스 패션쇼 출품작 황이슬×한선화 (사진=산업부)
메타버스 패션쇼 출품작 황이슬×한선화 (사진=산업부)

국내에서 메타버스 패션 행사가 처음 열렸습니다. 산업통상자원부가 지난 30일 서울 대치동 섬유센터에서 메타패션 출시행사가 벌어졌는데요,

앞서 지난 5월 제작발표회에서 제시한 콘셉트를 바탕으로 유명 디자이너들이 배우 한선화 등 셀럽들과 협업해 시범제작한 결과물 30벌을 동영상으로 공개했습니다.

AI 이미지 생성기인 '스테이블 디퓨전'의 이미지 품질이 크게 개선됐습니다. 개발사인 스태빌리티AI가 두 번째 버전을 배포했는데요, 생성되는 이미지의 기본 해상도를 최대 2048X2048픽셀까지 나올 수 있게 했습니다.

또 원본 이미지의 내용을 유지하면서 변형을 만들어 내는 뎁스 투 이미지라는 기능도 새로 추가하고 이미지의 일부를 빠르게 전환할 수 있는 인페이팅 기능도 업그레이드했습니다.

회사 측은 이밖에 버전2에 성인 콘텐츠를 걸러내는 필터를 배치해 부적절한(NSFW) 이미지를 생성하지 못하도록 했다고 밝혔습니다.

정병일 위원 jbi@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지