3월 2주

(영상제작=AI타임스)

요즘 인공지능 가운데 대형언어모델(LLM)의 활약이 두드러지고 있습니다. ‘챗GPT’ 같은 인공지능 챗봇을 비롯해 ‘알파폴드’ 같은 단백질 구조 예측 모델에 이르기까지 다양한 도구를 개발하는 기반으로 활용되고 있습니다. 

LLM은 글, 즉 텍스트로 명령해야 작동합니다. 그런데 이런 언어모델이 글만이 아닌 이미지나 소리, 영상도 인식하는 멀티모달형으로 진화하고 있습니다. 마이크로소프트가 지난주 멀티모달형 언어모델 ‘코스모스-1’을 공개했습니다. 

언어모델은 입력되는 단어를 토큰(token)이라는 단위로 나눠서 인식합니다. 챗GPT를 개발한 오픈AI의 경우 1토큰은 영어철자 4개 혹은 0.75 단어 길이라고 설명합니다. (1000토큰=750단어)

마이크로소프트는 코스모스-1이 이미지나 오디오 입력을 텍스트처럼 인식할 수 있도록 특수 토큰을 적용하는 방식으로 문제를 해결했습니다. 이 모델은 10시 10분을 가리키는 사진을 보여주고 시간을 물으면 이미지를 파악해 시간이 10시 10분이라고 답합니다.

구글 PaLM-E로 로봇 제어 실험하는 장면(사진=구글)
구글 PaLM-E로 로봇 제어 실험하는 장면(사진=구글)

구글은 여기서 한 걸음 더 나가 영상을 인식할 수 있는 언어모델을 지난주에 내놨습니다. ‘팜-이(PaLM-E)’라고 이름을 붙인 이 모델은 컴퓨터 비전 기술을 통합했습니다. 구글은 이 모델을 로봇을 제어하는데 적용했는데요,

“서랍을 열고 과자를 가져와”라고 명령하면 ‘팜-이’는 ‘서랍’, ‘과자’, ‘가져온다는 행동’의 의미를 이해하고 카메라에 비친 영상을 해석해 환경을 파악한 뒤에 로봇에게 행동계획을 만들어 입력합니다.

텍스트만 알아듣던 LLM이 이제는 이미지, 오디오, 영상 정보도 이해하는 멀티모달형이 되고 있는 겁니다. 올해 오픈AI가 GPT 시리즈의 4번째 버전인 GPT-4를 내놓을 예정인데요, 이 LLM 모델도 멀티모달일 수 있다는 얘기가 나오고 있기도 합니다.

이렇게 되면 GPT-3.5 버전인 챗GPT도 글뿐 아니라 이미지나 오디오, 영상을 알아들을 수 있는 버전으로 업그레이드 될 수 있겠죠.

멀티모달 인공지능은 앞으로 생체 신호 등 더욱 다양한 양식에 반응하는 쪽으로 발전할 것으로 기대됩니다.  특히 LLM은 멀티모달로 진화할수록 구글의 ‘팜-이’가 로봇 제어에 쓰이듯이, 할 수 있는 일이 기하급수적으로 늘어날 전망입니다. 

이 때문에 일각에서는 구글 딥마인드나 오픈AI 같은 인공지능 연구소들이 지향하는 ‘범용 인공지능(AGI)’의 출현이 가까워지는 것 아니냐는 추측이 나오고 있습니다.  

이어서 기술 동향 전해드립니다.

기술 동향

(원본 이미지(위)와  뇌 활동에서 예측된 이미지(아래) [사진=오사카대학]
(원본 이미지(위)와  뇌 활동에서 예측된 이미지(아래) [사진=오사카대학]

■인간의 뇌파를 이미지로 바꿔주는 AI기술이 개발됐습니다. 일본 오사카 대학 연구팀이 뇌파를 자기공명영상으로 스캔한 뒤 이를 이미지 생성 AI 모델인 '스테이블 디퓨전'에 입력해 이미지를 만들어 냈습니다. 사람의 뇌 속 생각을 이미지로 바꾼 겁니다.

■구글이 앞으로 내놓을 예정인 AI챗봇인 ‘바드’에 대해 검색용이 아니라고 못박았습니다. MS가 챗GPT를 검색엔진에 직접 결합한 것과는 달리 구글은 챗봇을 검색과 별개로 제공하겠다는 겁니다.

포드의 자율주행 기술 '블루크루즈' 디스플레이 (사진=포드)
포드의 자율주행 기술 '블루크루즈' 디스플레이 (사진=포드)

■차를 할부로 산 사람이 돈을 안내면 자동차가 스스로 되돌아 오도록 하는 자율주행 기술이 특허로 출원됐습니다. 미국 자동차 회사 포드가 지난달 미국 특허청에 이런 내용이 담긴 '차량을 회수하기 위한 시스템 및 방법'을 특허출원했습니다.

■추억의 애니메이션 ‘톰과 제리’의 한 에피소드가 AI도입으로 인한 실직 사태를 예견했다고 해서 화젭니다. 집주인이 로봇 고양이를 들이는 바람에 톰이 그만 실직자가 돼 집을 떠난다는 내용입니다.

이어서 업계 주요 동향 전해드립니다.

업계 동향

(사진=테슬라)
(사진=테슬라)

■테슬라가 자율주행 관련 기업들 중 최하위라는 평가를 받았습니다. 리서치 회사 가이드하우스 인사이트가 16개 자율주행 기업에 대해 평가한 결과입니다. 2020년부터 3년째 꼴찌를 기록했습니다.

■AI가 SNS 등에서 정보를 검색하고 GPT3가 대본을 쓰면 AI 아나운서가 방송을 하는 AI 라디오 방송국이 등장했습니다. 미디어 회사인 퓨처리가 만든 ‘라디오GPT’ 얘깁니다. 

(사진=카카오브레인)
(사진=카카오브레인)

■카카오브레인이 이미지 생성 AI 도구인 ‘비 에디트’의 오픈베타 서비스를 공개했습니다. 일본 애니메이션 등 원하는 화풍과 프롬프트를 입력하면 이미지 8장을 5 내지 10초안에 만들어줍니다. 

■과기정통부는 4월 10일까지 2023년도 '메타버스 선도 프로젝트' 및 '융합형콘텐츠 개발 사업'을 위한 사업자를 공모합니다. 공공, 산업융합 등 13개 과제별로 총 206억원을 지원합니다.

정병일 위원 jbi@aitimes.com

키워드 관련기사
  • 디스코드, 채팅에 생성 AI 기술 도입
  • 앤트로픽, 3억달러 추가 조달...기업가치 41억달러로 '껑충'
  • 구글, 100개 언어 자동번역하는 AI 모델 공개