구글 딥마인드, 멀티모달로 무장한 ‘제미나이’로 ‘챗GPT’ 잡는다 < AI 기업 < AI산업 < 기사본문

유튜브 데이터로 훈련...이미지 인식 기능 추가할 듯

박찬 기자
업데이트 2024.05.03 10:38
입력 2023.06.27 17:36
댓글 0

이 기사를 공유합니다

구글 딥마인드가 오픈AI의 '챗GPT'와 경쟁할 새로운 대형언어모델(LLM) 개발에 나섰다.

마이크로소프트(MS) 및 오픈AI 진영에 생성 인공지능(AI) 시장 주도권을 내준 구글이 대대적인 반격에 나서는 분위기다.

26일(현지시간) 테크크런치에 따르면 구글 딥마인드가 개발중인 새로운 LLM은 '제미나이(Gemini)'로 방대한 규모의 유튜브 비디오 데이터를 훈련에 활용하고 있는 것으로 알려졌다.

제미니는 지난 5월 구글 연례 개발자 회의 ‘I/O 2023’에서 LLM 기술과 알파고에서 사용하는 강화학습 기술을 결합한 모델로 소개한 바 있다. 강화 학습은 특정 행동에 대해 AI 시스템에 보상을 제공하거나 원하지 않는 행동을 처벌하고, 상황에 따른 적절한 행동을 가르치는 AI 학습 방법이다.

하지만 이번에 알려진 내용은 이전 모델에서 볼수 없었던 이미지 인식 및 생성 기능을 추가할 것이라는 사실을 암시하고 있어 관심이 모아진다. 텍스트에 국한됐던 인터페이스에 이미지가 추가되면 멀티모달 기능을 갖추는 셈이다.

이같은 멀티모달 기능이 더해지면 AI가 사진 속 정보를 해독해 글을 쓴다거나 매출 장표를 본 뒤 그래프와 분석 글을 만들어줄 수도 있게 된다.

구글은 지메일, 구글 맵, 구글 포토, 안드로이드 등에 제미나이의 멀티모달을 적용해 MS의 코파일럿에 대항하는 서비스를 내놓을 것으로 보인다.

업계에선 제미나이가 1조개가 넘는 파라미터로 구성된 초대형 언어 모델이 될거라는 관측도 있다. 오픈AI의 GPT-4의 파라미터는 5000억개 내외로 알려졌다.

구글은 자체 개발한 신경망처리장치(NPU)인 TPU를 수만개 이용해 훈련시킬 예정이다. 수십억 또는 수백억달러의 비용이 들 수 있으며, 실제 출시까지는 수개월이 걸릴 전망이다.

데미스 하사비스 딥마인드 CEO는 "제미나이는 문제를 해결하고 텍스트를 분석할 수 있는 능력을 갖게 될 것"이라고 말했다.

이 모델 개발은 구글의 통합 AI 조직인 구글 딥마인드가 맡게 된다. 구글 딥마인드는 구글의 자체 AI 조직인 구글 브레인과 자회사인 딥마인드가 합병해 탄생한 조직이다.

앞서 이들은 제미나이 개발을 위해 공동 연구에 나선다고 알려진 바 있지만 아예 조직이 합쳐지게 됐다.

공동 연구를 넘어 조직이 통합된 데는 MS와 오픈AI의 공세에 더 효율적으로 대응하기 위한 것으로 풀이된다.

구글 연구팀은 현재 대형언어모델(LLM)이 비약적으로 발전할 수 있는 이론적 기반을 제공한 트랜스포머 모델(Transformers), 심층강화학습(Deep reinforcement learning) 등을 발표하는 등 관련 분야를 선도해왔지만 오픈AI 진영이 챗GPT를 필두로 빠른 서비스화에 나서며 비즈니스 부문을 선점하자 대중과 업계의 관심을 이들에게 많이 내줘야 했다.

구글 딥마인드는 '알파고'로 유명세를 떨친 딥마인드의 데미스 허사비스가 맡게 된다. 허사비스가 이끄는 구글 딥마인드는 오픈AI의 챗GPT를 뛰어넘는 대형언어모델을 만들어 구글의 다양한 서비스에 적용하는 역할을 맡게 된다.

새 팀은 멀티모달 AI 모델을 개발하는 데 우선 순위를 두겠다고 밝혔다. 순다르 피차이 알파벳 CEO는 “구글 딥마인드는 AI 연구의 미래 방향을 설정하고 AI와 관련된 가장 중요하고 전략적인 기술 프로젝트를 이끌 것이다”라며 “그 중 첫번째는 일련의 강력한 멀티모달 AI 모델이 될 것이다”고 말했다.

박찬 기자 cpark@aitimes.com