데미스 허사비스 구글 딥마인드 CEO가 월드 모델(WM)이 어떻게 인공일반지능(AGI) 도달에 도움이 되는지를 구체적으로 설명했다. 그는 "AI 속의 AI가 즉석에서 세계를 창조할 것"이라며, 월드 모델이 AI의 답을 시뮬레이션하는 역할을 할 것이라고 전했다.
허사비스 CEO는 12일(현지시간) 자체 팟캐스트에 출연, 로컨 킬패트릭 AI 스튜디오 제품 책임자와 최근 '제미나이'의 성과와 이달 초 출시한 월드 모델 '지니 3(Genie 3)'에 대한 이야기를 나눴다.
최근 국제수학올림피아드(IMO)에서 제미나이의 금메달 수상이 먼저 화제에 올랐다.
허사비스 CEO는 이를 두고 매우 놀라운 일이라고 말했다. 또 "여전히 추론의 발전을 보는 것은 흥미롭다"라고 전했다.
이는 '제미나이 2.5 딥 싱크(Gemini 2.5 Deep Think)’를 말하는 것이다. 이는 '다중 에이전트' 모델로, 여러 AI 에이전트가 병렬로 문제를 분석하고 해결 방안을 제시하는 구조를 갖췄다. 이를 통해 고차원 추론과 복잡한 문제 해결에 특화된 성능을 발휘한다.
하지만 허사비스 CEO는 현재의 대형언어모델(LLM)은 AGI가 되기에 큰 문제가 있다고 지적했다. IMO에서 금메달을 딸 정도로 뛰어나지만, 같은 모델이 초보적인 수학에서 여전히 실수할 수 있다라는 것이다.
그는 이를 "균일하지 않은 지능(uneven intelligences) 또는 들쭉날쭉한 지능(jagged intelligences)"이라고 불렀다. 이는 지난 6월 순다르 피차이 구글 CEO가 밝힌 'AJI(Artificial Jagged Intelligence)'라는 용어와 같은 말이다.
이를 해결할 방법으로 월드 모델이 다시 거론됐고, 주제는 지니 3로 넘어갔다.
그는 "단순히 똑똑해진다는 것을 넘어, 문제를 계획하고 처리하는 것이 중요하다"라며 "첫번째 결과를 그대로 출력해서는 충분하지 않다"라고 말했다.
그리고 딥마인드 설립 초기에 '아타리' 게임을 인간 대신 플레이하는 모델을 개발한 것이 AGI로 가는 첫 시도였다고 밝혔다.
이 당시부터 강화 학습(RL)을 도입했다는 것이 이유 중 하나다. RL은 오픈AI를 비롯해 추론 모델을 개발하는 회사들이 핵심으로 꼽는 방식이다.
여기에 "원래 게임을 사람 대신 플레이하는 모델이지만, 여기에는 사고력과 계획, 추론 등이 더해져 종합적으로 문제를 해결하는 능력이 필요하다"라며 "이것이 AGI에 도달하는 방법"이라고 말했다.
월드 모델에 대해서는 "세계의 물리적 구조와 작동 방식, 재료 등을 이해하는 것은 물론, 심지어 생명체와 인간의 행동까지도 이해하는 모델"이라고 설명했다. 또 "AGI가 물리 세계를 이해한다면 물리 세계에서 작동할 수 있어야 한다"라며 "시공간의 맥락을 이해할 수 있어야 한다"라고 덧붙였다.
따라서 좋은 월드 모델인지를 테스트하는 방법으로 "세계를 생성하는 것"을 들었다. 즉, "모델이 역전해 세상에 대한 무언가를 생성하는 것"이라고 표현했다.
예를 들어 수도꼭지를 틀면 물이 나오고, 거울을 보면 비치는 현실과 같은 현상 만들어야 한다는 것이다. 그는 "지니 3에서는 다른 곳으로 고개를 돌렸다 다시 원 상태로 돌아오면 이전 장면이 그대로 남아 있다"라며 "이는 매우 놀라운 점으로 우리가 훌륭한 모델을 가지고 있다는 것을 말한다"라고 설명했다.
이는 이 모델이 이전에 생성된 프레임을 참조해 다음 상태를 예측하는 자기회귀(auto-regressive) 방식으로 작동, 일종의 ‘기억’을 가지고 있다는 것을 설명한다. 단순히 게임처럼 보이는 세계를 만드는 것이 아니라, 모든 장면에 시공간적인 맥락이 있다는 것을 말한다.
또 허사비스 CEO는 'AI 속의 AI'라는 개념을 소개했다. 그의 연구 팀은 SIMA(시뮬레이션 에이전트)라는 모델로 기존의 컴퓨터 게임을 조종해서 플레이한다고 소개했다. 물론, 이는 잘 작동할 때도 있고 반대인 경우도 있다고 전했다.
그는 "여기에서 흥미로운 점은 SIMA를 지니 3에 넣을 수 있다는 것"이라고 말했다. "한 AI가 다른 AI의 머릿속에서 활동하는 것"이라며 "상상만 해도 흥분된다"라고 말했다.
"SIMA가 어떤 행동을 취할지와 어떤 목표를 부여할 수 있을지를 결정하는 동안, 반대 쪽에서는 월드 모델이 즉석으로 세상을 창조한다"라고 설명했다. 이는 LLM이 어떤 결정을 내리는 동안, 월드모델이 그 결정이 실제 세계에서 어떤 결과를 낳을지를 미리 시뮬레이션한다는 설명이다.
즉, 월드 모델은 LLM이 말로 내린 결과를 현실 세계의 시뮬에이션으로 어떤 결과가 날지 테스트한다는 내용이다. 이를 통해 LLM을 넘는, 인간과 같은 지능을 발휘할 수 있다는 설명이다.
나아가 "지니 같은 모델에 여러 연구 분야와 사고가 모일 것"이라고 말했다. LLM이나 멀티모달 모델 등 다양한 형태의 AI가 내린 답을 월드 모델이 검증하는 구조다.
그는 "그래서 우리는 예전에도 지금도 많은 시뮬레이션 환경을 사용하고 있다"라며 "아주 사실적인 환경, 전통적으로 구축된 3D 게임 엔진 같은 것을 사용해서 우리 시스템이 물리적 세계를 이해할 수 있도록 더 많은 훈련 데이터를 만든다"라고 밝혔다.
이처럼 그는 지니 3가 왜 "AGI를 향한 일보 진전"이라고 발표했는지를 구체적으로 설명했다.
한편, 샘 알트먼 오픈AI CEO도 지난주 GPT-5를 출시하며 아직 AGI가 아니라고 밝힌 바 있다.
그는 "새로운 것을 발견하며 배포하며 지속적으로 학습하는 모델이 아니라는 것"을 이유로 들었다.
임대준 기자 ydj@aitimes.com
