구글이 멀티모달의 강자로 자리 잡았다는 소식은 지난달 소개해 드린 바 있습니다. 실제로 구글의 동영상 생성 모델 '비오'와 이미지 모델 '이매진'은 전문 스타트업 런웨이나 미드저니, 블랙 포레스트 랩스 등에 비해 떨어지지 않는 수준입니다.

구글이 이런 멀티모달모델(LMM)을 내놓기 시작한 것은 '챗GPT'가 등장하기 이전인 2022년 10월부터입니다. 당시 구글은 '페나키'와 '이매진 비디오'라는 획기적인 동영상 모델을 내놓았습니다. 

그리고 2023년 5월 I/O에서 선보인 '제미나이 1.0'은 당시에는 생소한 '네이티브 LMM'이었습니다. 즉, 언어모델에 별도의 이미지 생성 모델을 붙인 것이 아니라, 처음부터 언어 생성과 이미지 생성을 통합한 것입니다. 이후 구글은 번번이 오픈AI의 뒷북을 치는 모양새였지만, 멀티모달 분야만큼은 꾸준히 앞서갔습니다. 

2024년 2월에 터진 이미지 편향 문제로 한동안은 주춤하는 모양새였습니다. 이 때문에 제미나이에 통합됐던 이미지 생성 모델은 폐쇄됐고, 연말 '제미나이 2.0'이 나올 때까지는 복구되지 않았습니다.

지난해 12월 제미나이 2.0 출시를 기점으로 멀티모달 능력을 다시 빛을 발하기 시작했습니다. '비오 2'는 당시 출시됐던 오픈AI의 '소라'를 압도했습니다.

이처럼 구글은 LMM의 역사이기도 합니다. 그리고 이에 대해 구글의 AI 개발을 총괄하는 데미스 허사비스 딥마인드 CEO가 입을 열었습니다.

그는 10일(현지시간) 공개된 리드 호프먼 링크드인 창립자의 팟캐스트에 출연, 구글의 네이티브 멀티모달 전략이 처음부터 계획된 것이며, 여기에는 크게 2가지 이유가 있다고 밝혔습니다.

우선 그는 지난해 12월 출시한 비오 2에 대해 "유튜브 영상을 많이 시청하는 것만으로도 세상의 물리 법칙을 파악할 수 있다는 사실에 놀랐다"라고 밝혔습니다. 

비디오 모델에 대한 일종의 '튜링 테스트'가 있다고 설명했습니다. 칼로 토마토를 자르는 영상이 대표적인데, AI 모델이 물리 세계를 이해한다면 칼은 손이 아니라 토마토만 정확하게 잘라야 하는 것은 물론, 잘린 단면이 자연스럽게 벌어져야 합니다. 별도 지시도 없었는데, 비오 2는 이를 해냈다는 것입니다. 

이는 비오가 물리적 세계를 이해하는 일종의 '월드모델(LWM)' 기능을 갖추고 있다는 것을 말합니다. 

그리고 허사비스 CEO는 언젠가 제미나이와 비오가 통합될 것이라 밝혔습니다. 마치 최근 오픈AI가 '챗GPT'에 이미지 기능을 통합한 것처럼, 제미나이를 네이티브 영상 모델로 업그레이드하겠다는 것입니다.

그는 "우리는 파운데이션 모델인 제미나이를 처음부터 멀티모달로 구축해 왔다"라며 "그렇게 한 이유, 그리고 여전히 모든 멀티모달 벤치마크에서 선두를 달리고 있는 이유는 두가지"라고 밝혔습니다.

첫번째 이유로는 AI 음성 비서를 꼽았습니다. 실제로 구글은 이번 주부터 구글 픽셀 폰과 삼성 갤럭시 S25에 AI 영상 이해 기능을 추가하며, 이 분야에서 가장 앞서 나갔습니다. 이런 기능을 갖춘 AI 비서 '프로젝트 아스트라'를 선보인 것이 벌써 1년 전입니다.

(사진=구글)
(사진=구글)

두번째로는 로봇 공학을 꼽았습니다. 이는 월드모델(LWM)과 연결됩니다.

현재 LWM은 페이페이 리 교수의 월드랩스나 얀 르쿤 수석 과학자의 메타 등이 주도하고 있습니다. 구글도 지난해 말 LWM을 공개한 바 있습니다.

이런 모델은 기존 언어모델과는 달리, 실제 세계를 보고 이해하는 데 초점이 맞춰져 있습니다. 이를 통해 글로 세상을 배운 LLM의 한계를 넘는다는 의도입니다.

그런데 허사비스 CEO는 LWM과 LLM을 결합하는 핵심으로 제미나이를 내세운 것입니다. 다른 회사들은 물리 세계를 이해하는 LWM과 세상의 모든 텍스트를 학습한 LLM을 결합하는 개념이지만, 구글은 제미나이에 두가지를 녹여 넣겠다는 것입니다. 실제로 구글은 최근 비오와 기존 LWM을 통합하기 위해 조직을 개편했습니다.

또 구글은 지난달 ‘제미나이 2.0’을 기반으로 한 로봇 전용 AI 모델 ‘제미나이 로보틱스’와 ‘제미나이 로보틱스-ER’을 발표했습니다.

아직 구글도 다른 회사와 마찬가지로 시각-언어-행동모델(VLA)인 제미나이 로보틱스와 비전언어모델(VLM)인 로보틱스-ER을 짜맞춘 상태이지만, 언젠가는 이를 제미나이 하나로 통합하겠다는 것입니다. 이 경우, 제미나이는 가장 강력한 로봇용 AI가 될 수 있습니다.

한편, 이날 팟캐스트에서는 주목할 만한 이야기가 하나 더 등장했습니다. 그는 구글이 다양한 크기와 용도의 모델을 보유하고 있다고 소개하던 중 "우리가 찾고 싶은 것은 모델의 파레토 프런티어"라고 밝혔습니다.

파레토 프런티어(Pareto frontier)란 간단하게 설명하면 '비용 대비 효과 최적화'를 말합니다. 즉, 이제는 연구 핵심이 어떤 상황에서 어떤 모델이 가장 좋은 효율을 내는지를 찾는 것이라는 말입니다.

"개인적으로 현재 최첨단 연구는 이것으로 생각한다. 아마 모든 주요 연구실에서 실험하고 있을 것"이라며 "그리고 아직 명확한 답은 없다고 생각한다"라고 말했습니다.

즉, 첨단 AI 기업은 모델 성능을 끌어 올리는 것을 넘어, 다양한 응용 애플리케이션에 맞춰 모델을 최적화하는 것에 집중한다는 말입니다. 

이처럼 구글은 AI 개발 방향을 '실용성'에 맞춘 것으로 보입니다. 그리고 음성 비서와 로봇을 타깃으로 제미나이의 멀티모달 기능을 강화하고 있습니다. 단순히 이미지나 영상을 잘 만드는 수준을 넘어서는 것입니다.

그동안 오픈AI나 앤트로픽에 비해 조금씩 부족해 보였던 구글이지만, 멀티모달 시대에서는 주요 애플리케이션 기업으로 올라서겠다는 의도를 엿볼 수 있는 인터뷰였습니다.

이어 10일 주요 뉴스입니다.

(사진=삼성전자)
(사진=삼성전자)

삼성, 가정용 로봇 ‘볼리’에 제미나이 탑재… 올여름 출시

삼성이 올여름 출시될 로봇 볼리에 제미나이를 탑재하겠다고 발표했습니다. 볼리는 단순 홈 허브 기기를 넘어, 개인비서 역할까지 할 수 있을 것으로 보입니다. 

국내 '챗GPT' 사용자 한달 만에 31% 증가...3월에만 122만명 추가

지브리 스타일 이미지 유행으로 챗GPT 사용자가 부쩍 늘어난 것으로 밝혀졌습니다. 이미지 생성이 지난달 25일에 출시됐다는 점을 감안하면, 최근 사용자 증가 폭은 더 클 것으로 보입니다.

엔비디아, '딥시크-R1' 절반 크기로 성능 앞서는 오픈 소스 추론 모델 출시

엔비디아가 딥시크를 앞서는 추론 모델을 오픈 소스로 공개했습니다. 특히 크기는 R1의 절반에 불과합니다. 딥시크 때문에 주가가 폭락했던 엔비디아가 제대로 복수한 것으로 볼 수 있습니다.

AI타임스 news@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지