“AI는 외계어를 사용한다”…DALL-E 2가 생성하는 비밀 언어

AI가 자신만이 이해하는 비밀 언어를 스스로 생성
DALL-E 2가 요청 이미지와 자체 어휘 캡션을 생성
BPE 토큰화(tokenization) 효과로 비밀 언어를 설명
비밀 언어를 사용해 유해 콘텐츠 필터를 우회 우려

DALE-2는 ‘Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons’를 보고 벌레를 먹는 새의 이미지를 제공한다.(사진=오픈AI)

‘Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons’는 어느 나라 말일까? 지구상의 누구도 이해할 수 없는 말을 사용하는 존재가 나타났다. 오픈AI의 DALL-E 2는 이 말을 보고 ‘벌레먹는 새’의 이미지를 그려 냈다. DALL-E 2가 다양한 종류의 개체에 대해 자신만이 이해하는 '비밀 언어'를 스스로 생성했다는 주장이 나왔다.

기술매체 더컨버세이션(The Conversation)에 따르면 미국의 연구원들은 Dall-E 2 모델이 물체에 대해 이야기하기 위해 고유한 비밀 언어를 발명했을 수 있다는 흥미로운 주장을 했다.

연구원들은 DALL-E 2에 주어진 텍스트에 대해 이미지와 함께 텍스트 캡션을 생성하도록 요청한 다음 생성된 캡션을 시스템에 다시 제공했을 때 ‘Apoploe vesrreaitais’는 ‘새’를, ‘Contarra ccetnxniams luryca tanniounons’는 ‘벌레’를, ‘Vicootes’는 ‘야채’를, ‘Placoactin knunfidg’는 ‘물고기’를, ‘Wa ch zod rea’는 ‘고래가 먹을 수 있는 바다 생물’을 의미한다는 것을 발견했다.

이러한 주장이 사실이라면 이러한 종류의 대규모 AI 모델에 대한 해석 가능성에 중대한 영향을 미칠 수 있다. DALL-E 2에는 아마도 '비밀 언어'가 없을 것이다. 자체 어휘가 있다고 말하는 것이 더 정확할 수 있지만 확실히 알 수는 없다.

우선 현재 단계에서는 DALL-E 2 및 기타 대규모 AI 모델에 대한 주장을 확인하기가 매우 어렵다. 공개적으로 공유되는 모든 이미지는 AI가 생성한 많은 출력 이미지 중에서 인간이 최고의 이미지만을 선별했기 때문이다.

액세스 권한이 있는 사용자라도 이러한 모델을 제한된 방식으로만 사용할 수 있다. 예를 들어 DALL-E 2 사용자는 이미지를 생성하거나 수정할 수 있지만 코드를 수정하는 등 AI 시스템과 더 깊이 상호작용할 수는 없다. 이는 이러한 시스템이 어떻게 작동하는지 이해하기 위한 ‘설명가능한 AI’ 방법을 적용할 수 없고 시스템의 동작을 조사하는 것이 어렵다는 것을 의미한다.

한 가지 가능성은 DALL-E 2가 생성한 문구가 영어가 아닌 언어의 단어와 관련되어 있다는 것이다. 예를 들어 새의 이미지를 만드는 것처럼 보이는 ‘Apoploe’는 조류종에 대한 라틴어 ‘Apdidae’와 유사하다. 이것은 그럴듯한 설명처럼 보인다. 예를 들어, DALL-E 2는 영어가 아닌 많은 단어를 포함해 인터넷에서 스크랩한 매우 다양한 데이터에 대해 훈련되었기 때문이다. 대규모 AI 언어 모델이 의도적인 훈련 없이 우연히 컴퓨터 코드를 작성하는 법을 배운 적이 있었기 때문에 가능한 일이다.

이 이론을 뒷받침하는 한 가지 요점은 AI 언어 모델이 인간이 하는 방식으로 텍스트를 읽지 않는다는 사실이다. 대신 입력 텍스트를 처리하기 전에 ‘토큰(tokens)’으로 나눈다.

또한 다른 토큰화(tokenization) 방식은 다른 결과를 가져온다. 각 단어(word)를 토큰으로 취급하는 것은 직관적인 접근 방식처럼 보이지만 동일한 토큰이 다른 의미를 가질 때 문제가 발생한다. 예를 들어 테니스 경기를 의미하는 ‘매치(match)’와 불을 켜는 성냥을 의미하는 ‘매치(match)’는 다르다.

반면에 각 문자(character)를 토큰으로 취급하면 더 적은 수의 토큰이 생성되지만 각 문자는 훨씬 덜 의미 있는 정보를 전달하게 된다.

DALL-E 2와 같은 텍스트-이미지 생성기는 BPE(Byte Pair Encoding)라는 중간적인 접근 방식을 사용한다. DALL-E 2가 새에 사용하는 ‘Apoploe vesrreaitais’에 대한 BPE 인코딩을 살펴보면 ‘apo, plo, e</w>, ,ve, sr, re, ait, ais</w>’와 같다. Apo-didae 및 Plo-ceidae는 각각 100개 이상의 종이 있는 새과이고, Apo-diformes는 400종 이상의 종이 있는 가장 큰 새과에 속한다. 토큰 ‘apo’나 ‘plo’의 영향으로 DALL-E 2는 일관되게 새 이미지를 생성하는 것으로 해석된다.

위키피디아(Wikipedia)에서 ‘Actinopterygii’와 ‘Placodermi’라는 물고기 두 종류를 선택하고 DALL-E 2에 ‘placoactin knunfidg’를 표시하도록 했을 때 물고기 이미지를 일관되게 생성한다.(사진=오픈AI)

위키피디아(Wikipedia)에서 ‘Actinopterygii’와 ‘Placodermi’라는 물고기 두 종류를 선택하고 DALL-E 2에 ‘placoactin knunfidg’를 표시하도록 했을 때 물고기 이미지를 일관되게 생성하는 것과 유사하다. DALL-E 2가 생성하는 언어에 대한 BPE 표현을 조사하면 비밀 언어를 더 잘 이해하는 데 중요한 요소가 될 수 있다.

DALL-E 2가 생성한 단어에서 개별 문자를 제거하면 생성된 이미지의 일부가 가려지는 이미지가 제공된다.(사진=오픈AI)

DALL-E 2는 "무슨 말인지 모르겠다"라고 말할 수 없기 때문에 주어진 입력 텍스트에 대해 항상 이미지를 생성한다. 단어나 문자 토큰화 중 어느 것도 무슨 일이 일어나고 있는지 완전한 설명이 되지 않는다. 예를 들어 DALL-E 2가 생성한 단어에서 개별 문자를 제거하면 생성된 이미지가 특정한 방식으로 손상되는 것처럼 보인다. 또한 DALL-E 2가 생성한 단어들이 반드시 결합해 일관된 복합 이미지를 생성하는 것은 아니다.

DALL-E 2에 ‘Bonabiss is bobor ine is ros and in beors witches’라고 여러 차례 요청했을때, 벌레, 과일, 마녀로 추정되는 개체가 이미지에 항상 포함되지는 않는다.(사진=오픈AI)

DALL-E의 ‘비밀 언어’는 기계 학습 시스템에 대한 ‘적대적 공격’의 한 예가 될 수 있다. AI가 잘 처리하지 못하는 입력을 의도적으로 선택해 시스템의 의도된 동작을 중단시키는 방법이다. AI가 비밀 언어를 의도하지 않은 방식으로 해석하면 의미 있는 단어를 의도하지 않은 방식으로 해석할 수도 있게 된다.

적대적 공격은 보안 문제도 제기한다. DALL-E 2는 사용자가 유해하거나 모욕적인 콘텐츠를 생성하지 못하도록 입력 텍스트를 필터링하지만 비밀 언어를 사용하면 사용자가 이러한 필터를 우회할 수 있다.

마지막으로 DALL-E 2의 비밀 언어와 같은 현상은 해석 가능성에 대한 우려를 불러일으키고 있다. 우리는 이러한 모델이 인간의 기대대로 작동하기를 원하지만 비밀 언어에 대한 응답으로 구조화된 출력을 보는 것은 우리를 혼란스럽게 한다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]구글, ‘DALL-E 2’와 경쟁하는 ‘Imagen’ 발표

[관련기사][AI티타임] 오픈AI가 개발한 달리2 "좋지만 위험해"