올해 AI 트렌드는 '멀티모달?' (기획·제작=김동원 기자, 촬영=김미정 기자)

AI가 칼럼을 쓰고 소설을 쓰는 시대가 됐습니다.
그러면 AI가 새로운 이미지를 만드는 것도 가능할까요? 새로운 영상을 만드는 것은요? 가능합니다. 멀티모달 AI 기술이 발전하고 있기 때문인데요.
그러면 멀티모달 AI가 무엇이냐. 오늘 [김동원의 Eye-T]에서 알아보겠습니다.

멀티모달 AI는?

멀티모달 AI는 올해 AI 분야 핫 트렌드입니다. 한국만 봐도 LG, 네이버 같은 기업이 멀티모달 AI로 어쩐다 저쩐다 얘기를 많이 하고 있잖아요.

멀티모달 AI는 사전적 정의로 보면 시각, 청각, 감각 등의 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델을 의미합니다. 조금 더 쉽게 말하면 텍스트를 비롯해서 음성, 제스처, 사람의 시선이나 표정, 생체신호 등의 여러 데이터를 AI가 받아들이고 사고할 수 있다고 보면 됩니다.

이것도 조금 어렵네요. 조금 더 쉽게 알아보겠습니다. 그동안 AI는 텍스트에 많이 집중되어 있었습니다. 오픈AI가 공개한 GPT-3가 한 미국 언론사에 칼럼을 써서 이슈가 됐었는데. 이 AI는 텍스트를 받아들이고 이를 기반으로 칼럼을 썼잖습니까? 

이러한 AI가 이제 이미지나 동영상, 생체신호까지 받아들여 칼럼 말고 새로운 일을 할 수 있다는 것이죠. 인테리어 디자인을 창작해주거나 사람들이 말로 하는 대화를 영상으로 자동으로 만들어주거나 하는 일들이요.

그러니까 멀티모달 AI는 AI가 텍스트를 기반으로 새로운 콘텐츠를 만드는 것에서 벗어나 이미지, 영상, 생체신호 등을 토대로 새로운 결과물을 내놓을 수 있다고 보면 됩니다.

멀티모달 AI가 무엇을 할 수 있는데?

멀티모달 AI는 이제 기술이 개발되고 있는 초기 단계로 보입니다. 지금은 이미지까지만 이해할 수 있는 AI가 등장한 단계고요.

대표적인 모델이 오픈AI의 달리(DALLE)가 있죠. 지금은 달리2까지 나온 상태고요. 달리2는 사용자가 어떤 키워드를 텍스트로 입력하면 이와 관련된 이미지를 새로 생성해줍니다. '체스를 두는 고양이', '모래로 가득찬 방에 있는 피아노'와 같이 기존에 없던 새로운 이미지를 보여달라고 하면 달리2는 해당 이미지를 만들어줍니다. 이 AI 모델이 이러한 이미지를 만들 수 있는 것은 텍스트와 이미지에 대한 데이터를 모두 사고할 수 있어서겠죠.

달리2만 있냐. 아닙니다. 우리나라에도 있습니다. LG AI연구원이 개발한 '엑사원'인데요. 엑사원은 텍스트를 입력하면 이미지로 만들어주기도 하지만 이미지를 텍스트로도 설명할 수 있습니다. 텍스트를 이미지로, 이미지를 텍스트로. 양방향으로 다 되는 것이죠.

엑사원이 한 작업은 이미 유명합니다. 올해 2월 열린 패션위크에서 박윤희 디자이너와 AI휴먼 틸다가 협업해 새로운 의상 디자인을 선보였다고 하는데요. 이 틸다에 탑재된 AI가 바로 엑사원입니다. 

이러한 멀티모달 AI를 일반인도 실생활에 이용할 수 있을까요? 네 할 수 있습니다. 네이버는 최근에 멀티모달 AI가 적용된 검색 서비스 '스마트렌즈'를 선보이겠다고 밝혔는데요. 사용자가 검색하고 싶은 이미지를 촬영하면 검색이 되는 서비스입니다. 예를 들어 에어팟 케이스 사진을 촬영하면 이와 유사한 이미지를 검색해주거나 구매할 수 있는 정보 등을 알려주죠. 이러한 검색 기능이 가능해진 배경에는 멀티모달 AI가 있습니다.

멀티모달 AI, 앞으론 어떻게 발전할까?

지금은 멀티모달 AI가 이미지에만 초점이 맞춰져 있는데 앞으로는 도표, 그래프, 동영상, 생체신호 등으로도 발전할 것으로 전망됩니다. LG AI연구원은 이미 서울대와 이러한 멀티모달 AI를 개발할 예정이라고 밝혔습니다.

이러한 AI 모델이 개발된다면 다양한 일이 가능해질 것으로 보입니다. 예를 들어 동영상을 이해하고 사고할 수 있는 AI가 개발됐다고 하면요. 영화에서 보면 범죄자가 나온 CCTV 영상을 형사가 “야 이 영상 다시 돌려봐” 막 이러잖아요. 그러면 부하 직원이 막 돌려서 다시 재생해요. 앞으로 이럴 필요가 없어질 겁니다. AI가 범죄자의 모습을 딱 파악한 뒤 이 사람이 나온 영상을 자동으로 찾아서 제공해줄 수 있는 것이죠.

생체신호를 알 수 있으면 의료 쪽으로도 발전이 있을 것 같고요. 도표나 그래프를 이해할 수 있다면 논문이나 다양한 자료에서 필요한 정보를 빠르게 추출할 수도 있겠네요. 나중에는 이러한 논문을 말로 설명하면 자동으로 작성해주는 시대가 되지 않을까 조심스럽게 생각해봅니다.

멀티모달 AI 문제 없나?

그런데 이러한 멀티모달 AI는 문제가 없을까요? 사실 여러 문제점이 예상되는데요. 이미지로 예를 들면 유해한 콘텐츠를 만들 수 있습니다. 어떤 텍스트든 AI가 이미지로 만들 수 있으니깐요. 악용될 수 있는 것이죠. 기존에 없는 신용카드 이미지를 만든다거나 유명인 얼굴을 합성해 19금 이미지를 만든다거나 하는 등의 문제가 생길 수 있는 겁니다.

AI의 고질적인 문제인 편향성 문제도 있습니다. AI는 기존에 있는 데이터를 사용하다 보니 기존에 가진 편향성이 나타날 수밖에 없는데요. 예를 들어 간호사를 다 여성으로 표현한다거나 대통령은 대부분 남성으로 표현하는 등의 문제가 생길 수 있죠.

이러한 문제점을 줄이기 위해 오픈AI는 실제 사람의 이미지를 생성하는 것을 못 하게 하거나 폭력을 보여주는 이미지, 공격적인 이미지를 훈련 데이터에서 제거하는 등의 노력을 하고 있습니다. LG와 네이버도 AI가 윤리에 어긋난 행동을 하지 않도록 하는 연구를 하고 있죠.

새로운 기술이 등장하면 좋은 점도 있지만 뒤따라오는 문제점도 분명히 존재합니다. 자동차가 개발돼서 우리는 이동이 편해졌지만 교통사고로 인한 사망자도 증가했죠. 이 문제를 줄이기 위해 자동차 업체에서는 에어백, ADAS(첨단운전자지원시스템) 등 여러 안전장치를 마련하며 사고로 인한 피해를 줄이고자 노력하고 있는데요. 

AI도 마찬가지입니다. AI 등장으로 예상되는 문제도 많기에 이러한 문제를 줄이기 위한 노력도 병행돼야 할 것으로 보입니다. 멀티모달 AI 역시 예상되는 문제를 사전에 차단할 수 있는 방향으로 개발됐으면 합니다.

김동원의 Eye-T. 오늘은 이것으로 마치겠습니다. 감사합니다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사][AI티타임] 오픈AI가 개발한 달리2 "좋지만 위험해"

[관련기사]"초거대 AI 한계 넘는다"...LG AI연구원-서울대, '초거대 멀티모달 AI' 고도화 착수