오픈AI 로고 (사진=오픈AI)
오픈AI 로고 (사진=오픈AI)

인공지능(AI) 연구소 ‘오픈AI’가 개발한 인공지능(AI) 언어생성ㆍ인식 모델 GPT-3는 사람처럼 언어를 만들어내지만 기본 상식이 부족하다. 텍스트로만 세상을 이해하기 어려운 셈이다.

노스캐롤라이나대(UNC) 연구진은 AI 언어모델에 컴퓨터 비전을 결합하고자 시도했고 그 결과 대략 30억 단어에 달하는 영문 위키피디아 내용과 이미지 일치를 40%에 가깝게 일치 시켰다. 대략 12억건 단어-이미지 일치를 AI 알고리즘이 수행한 것이다. 

AI 언어 학습에서 언어 모델을 훈련하는 데 쓰는 단어를 ‘토큰’이라고 하며 UNC 연구진은 이미지ㆍ텍스트 모델에서 토큰과 관련된 이미지를 ‘보큰’이라고 불렀다. 보크나이저는 보큰을 찾는 알고리즘이며 보크나이제이션은 전체 과정이자 해당 비지도 학습법을 일컫는다.

연구진은 MS COCO로 만든 시각ㆍ언어 ‘단어임베딩’ 기법을 활용해 보크나이저 알고리즘을 교육했다. 일단 교육을 받은 보크나이저는 완벽하지는 않지만 영어 위키 백과에서 토큰ㆍ보큰 12억개를 찾을 수 있었다. 하오 탄 연구 공동저자 겸 UNC 박사 과정 학생과 그의 지도교수 모힛 반살은 11월 중순 새로운 기술이 담긴 논문을 발표할 예정이다.

타 연구진도 노스캐롤라이나대 연구진처럼 AI 언어모델에 컴퓨터 비전을 결합하고자 시도하고 왔다. 언어 생성 AI와 컴퓨터 비전 AI 결합 연구는 빠르게 확산하고 있다. 두 유형에 사용하는 AI는 강점이 다르다.

GPT-3 같은 언어모델은 비지도 학습으로 훈련하기에 데이터를 처리할 때 분류(라벨링)된 데이터가 필요하지 않아 AI 기능을 쉽게 확장할 수 있다.

반면 객체 인식 시스템 같은 AI 모델은 실제 이미지로부터 세상을 더 직접적으로 배우기에 텍스트처럼 이 세계를 추상적으로 이해하지 않는다. 객체 인식 시스템은 양 사진을 ‘보고’ 양이 하얗다는 사실을 분간할 수 있다. 반면 GPT-3 언어모델은 양이 종종 검다고 답한다.  

AI가 입력된 텍스트를 이미지로 구현했다. (사진=앨런 AI 연구소)
AI가 입력된 텍스트를 이미지로 구현했다. (사진=앨런 AI 연구소)

앨런 AI 연구소, 텍스트로 이미지 구현

위 사진들은 AI가 점점 똑똑해지고 있음을 나타난다. AI는 텍스트로 이미지를 생성하는 방법을 배우고 있기에 세상을 점점 더 잘 이해하고 있다.

이미지ㆍ텍스트 두 유형의 데이터 세트를 ‘모두’ 처리할 수 있는 AI모델은 실용성이 뛰어나다. 일례로 로봇 비서를 만들고 싶다면 이동에 필수적인 컴퓨터 비전 기술, 사람과 의사 소통할 수 있는 언어 능력이 필요하다. 반면 기존 객체 인식 시스템과 AI 언어 모델 결합은 스테이플러로 붙여놓는 것마냥 간단하지는 않다. 텍스트와 이미지를 포함하는 데이터 세트를 사용해 처음부터 새로운 모델을 교육해야 한다.

이러한 데이터 세트를 분류ㆍ배포(큐레이션) 하는 가장 일반적인 방법은 설명 문구가 있는 이미지를 수집하는 것이다. 일례로 다음 사진에는 "주황색 고양이가 옷이 잔뜩 실린 여행 가방에 앉아 있다"는 자막이 붙을 수 있다. 일반적인 이미지 데이터 세트였다면 이 사진을 ‘고양이’라고 분류한다. 이미지ㆍ텍스트 데이터 세트는 AI 모델에 사물을 인식하는 방법뿐만 아니라 동사와 전치사를 사용해 사물이 서로 어떻게 연관되는지 가르친다.

이미지ㆍ텍스트 데이터 분석 알고리즘은 위 사진을 "주황색 고양이가 옷이 잔뜩 실린 여행 가방에 앉아 있다"고 나타낼 수 있는 반면 일반 이미지 분석 AI은 이 사진을 '고양이'라고 분류한다. (사진=셔터스톡)
이미지ㆍ텍스트 데이터 분석 알고리즘은 위 사진을 "주황색 고양이가 옷이 잔뜩 실린 여행 가방에 앉아 있다"고 나타낼 수 있는 반면 일반 이미지 분석 AI은 이 사진을 '고양이'라고 분류한다. (사진=셔터스톡)

영문 위키 백과 같은 인기 있는 텍스트 전용 데이터 세트에는 거지는 단어 30억 개가 담겼다. 마이크로소프트(MS)의 이미지ㆍ텍스트 데이터세트 ‘커먼 오브젝트 인 컨텍스트(COCO)’에는 단어 700만개가 들었다. COCO로는 데이터가 충분치 않아 AI 모델을 교육할 수 없다.

UNC 연구진은 MS COCO에 있는 데이터 소량을 영어 위키백과 크기로 확장하기 위해 비지도 학습 방법을 사용해 이 문제를 해결한다. 이 비지도 학습 방법이 바로 보크나이제이션(vokenization)이다.

그 결과 만들어진 AI 이미지ㆍ텍스트 모델은 오늘날 AI의 언어 이해도를 평가하는 데 사용되는 가장 어려운 몇 가지 시험에서 최첨단 언어모델을 능가한다.

UNC 연구진은 이미지 데이터 세트에서 자막 역할을 할 문장을 수기나 키보드로 작성하는 대신 언어 데이터 세트에서 시작해 각 단어를 관련 이미지와 일치시키기 위해 비지도 학습을 사용했다. 이 비지도 학습법이 궁극적으로 UNC 연구진 논문을 완성했다. 

실제로 각 단어에 대한 관련 이미지를 어떻게 찾는가?

보크나이제이션으로 단어 관련 이미지를 찾았다. GPT-3를 잠시 돌이켜 보자. 2017년 자연어 처리에 비지도 학습을 도입했을 때 첫 번째 트랜스포머 언어모델이 큰 역할을 했다. GPT-3는 ‘트랜스포머’로 알려진 언어모델 계열 가운데 하나다.

트랜스포머는 문맥에서 단어가 어떻게 사용되는지를 파악한 다음 그 문맥에 근거해 단어를 수학적으로 표현한다. 이를 '단어 임베딩(word embedding)'이라고 하며 이 방식으로 사람 언어 패턴을 학습한다.

일례로 단어 ‘고양이’ 단어가 담긴 문장에서는 ‘야옹’과 ‘오렌지’를 종종 볼 수 있으나 개가 짖는 소리인 ‘왈왈’ 혹은 ‘파랑’ 이라는 단어는 상대적으로 드물게 나타난다.

트랜스포머 언어 모델은 이러한 방식으로 단어 뜻을 추정하며 GPT-3가 사람처럼 문장을 쓰는 비결이기도 하다. 단어를 문장으로, 문장을 단락으로 조립하는 방법을 알려주기 위해 ‘단어 임베딩’ 기법을 활용한다.

예를 들어 다음과 같다.

(사진=셔터스톡)
(사진=셔터스톡)

보큰 실제 예시 

"그녀 연락처(contact) 여기 있다." "어떤 고양이는 사람 접촉(contact)을 좋아한다."

두 예시 모두 토큰은 'contact'다. 첫 번째 문장에서 contact는 문맥상으로 연락처를 지칭하기 때문에 보큰은 위 사진 왼편 사람 아이콘이다. 두 번째 문장에서 문맥은 이 단어가 스킨십을 가리킨다는 것을 암시하기에 사람이 고양이를 어루만지는 사진이 보큰으로 나타났다.

하오 탄 연구 공동저자 겸 UNC 박사 과정 학생과 그의 지도교수 모힛 반살은 2주 뒤 ‘자연언어 처리에서의 경험적 방법에 관한 컨퍼런스’에서 그들의 새로운 기법을 발표할 예정이다. 토마스 울프 자연어처리 스타트업 업체 ‘허깅 페이스(Hugging Face)’ 공동창업자는 아직 초기 단계이지만 비지도 학습이 시각언어 모델을 작동하는 데 있어 이들의 작업이 중요한 돌파구가 될 수 있을 것으로 내다봤다.

[관련기사] 아마이(AMAI) 인공지능 전문가 로드맵 공개. 야! 너두 할 수 있어

[관련기사] 바이든 당선 예측성공한 AI, 아직 고칠 게 많다

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지