'달리'에 'Hello가 적힌 표지판' 생성을 요청한 결과
'달리'에 'Hello가 적힌 표지판' 생성을 요청한 결과

생성 인공지능(AI)이 이미지 내부에 단어를 생성하는 '타이포그래피(typography)'에 약한 이유가 실제로 글자를 인식하지 못하기 때문이라는 설명이다. 대형언어모델(LLM)도 시를 짓고 논문도 작성해 줄 수 있지만, 역시 글 자체를 이해하는 것은 아니다.

테크크런치는 22일(현지시간) 이미지 생성 AI 출력물에서 단어의 철자법이 자주 틀리는 문제에 대해 전문가들의 말을 인용, 상세한 설명을 내놓았다.

이에 따르면 현재 대부분의 이미지 생성 AI는 이미지 속 글자를 생성할 때 철자를 엉망으로 표현하는 경향이 있다. 이 분야의 최강으로 꼽히는 '이디오그램'을 비롯해 최근에는 '달리'나 '스테이블 디퓨전' 등이 문제를 많이 해결했지만, 여전히 완벽한 것은 아니다.

예를 들어 'Hello'를 'HeLIo'나 'HEELLLLOOOO' 등으로 출력하는 식이다. 생성 이미지를 상업적인 용도로 사용할 경우에는 심각한 문제가 된다.

전문가들은 이 문제가 생성 AI의 작동 원리 때문이라고 지적한다.

아스멜라시 하구 르산 공동 창립자는 "이미지 생성기는 자동차나 사람의 얼굴과 같은 인공물에서는 뛰어난 성능을 발휘하는 경향이 있지만, 손가락이나 글씨같은 작은 것에서는 성능이 떨어진다"라고 지적했다.

이미지 생성기와 텍스트 생성기의 기본 기술은 서로 다르지만, 두 모델 모두 철자와 같은 세부 사항에 대해 비슷한 어려움을 겪는다.

이미지 생성기는 노이즈를 제거하며 이미지를 재구성하는 '확산(Diffusion) 모델'을 사용한다.  하구 창립자는 "이미지 생성기는 픽셀 중 많은 부분을 포함하는 패턴을 주로 학습한다"라며 “이미지 안에 포함된 글은 그리 중요한 부분으로 인식하지 않는다"라고 말했다.

텍스트의 경우도 대형언어모델(LLM)이 인간처럼 프롬프트를 읽고 응답하는 것처럼 보일 수 있지만, 실제로는 수학적인 원리를 사용해 패턴을 파악하고 가장 확률이 높은 것을 늘어놓는 것에 불과하다. 이 때문에 LLM은 '확률론적인 앵무새'라고도 불린다.

또 AI 모델은 훈련 데이터에서 본 것과 유사한 것을 재현하도록 만들어졌지만, 단어의 스펠링이나 손가락의 개수에 대한 규칙은 기본적으로 알지 못한다는 설명이다.

매튜 구즈디알 앨버타대학교 AI 연구원 겸 교수는 “지난해까지만 해도 이미지 생성 모델은 손가락 수를 제대로 구현하는 데 어려움을 겪었으며, 원칙적으로 텍스트도 같은 문제를 가지고 있다”라고 말했다.

이를 해결하기 위해 개발자들은 AI에 손이 어떻게 생겼는지 등을 가르치기 위해 특별히 설계한 훈련 모델로 데이터셋을 보강해 문제를 개선하고 있다. 그러나 전문가들은 철자법 문제가 그렇게 빨리 해결될 것으로 예상하지 않았다.

구즈디알 교수은 “모델 훈련으로 성능을 개선할 수는 있지만, 불행하게도 영어는 정말 복잡하다”라고 말했다. 다른 언어로 확대하면 학습량은 엄청나게 늘어난다. 

따라서 어도비 파이어플라이 등 일부 모델은 이미지 속에 텍스트를 전혀 생성하지 않도록 학습한다. 타이포그래피를 지시하면 흰색 표시만이 출력된다. 그러나 프롬프트에 충분한 정보만 입력하면 이런 가드레일을 우회할 수 있다는 설명이다.

그는 "게다가 텍스트는 훨씬 어렵다. 이 때문에 '챗GPT'조차 철자를 제대로 쓰지 못한다"라고 지적했다.

그 예로 '아스키(ASCII)' 아트를 예로 들었다. 아스키 아트는 문자로 그림이나 단어를 흉내 내는 것을 말한다. 

실제로 유튜브나 X(트위터) 등에는 챗GPT로 아스키 아트를 생성하려다가 실패한 영상이 많이 올라와 있다. 이는 챗GPT가 단어 자체를 이해하지 못한다는 증거다.

“LLM은 실제로 텍스트를 읽지 않는 트랜스포머 아키텍처를 기반으로 한다. 프롬프트를 입력하면 인코딩으로 변환된다”라며 “즉 'the'가 의미하는 바에 대한 인코딩은 있지만, 'T' 'H' 'E'에 대해서는 알지 못한다"라고 말했다.

“문제는 스펠링이나 손가락 개수만이 아니라는 점"이라고 덧붙였다. “개발자들이 애 써 손가락 문제를 해결하면, 기타 줄이 7개로 출력되거나 피아노 건반의 흰색과 검은색 부분의 배치가 틀리는 문제가 부각될 것"이라고 말했다.

생성 AI 모델은 놀라운 속도로 개선되고 있지만, 현실적으로 기술 용량을 계속 확대할 수는 없기 때문에 이런 문제는 계속 발생할 것이라고 지적했다.

구즈디알 교수은 "이런 모델은 항상 작은 문제를 만들고 있다. 단지 우리가 특히 그중 일부를 인식하도록 잘 조정돼 있을 뿐"이라고 말했다.

또 하구 창립자는 “AI는 발전하고 있으며, 의심의 여지는 없다”라고 말했다. "그러나 이 기술은 너무 과장돼 있다"라고 강조했다.

임대준 기자 ydj@aitimes.com

키워드 관련기사
  • 이디오그램, '최강 타이포그래피' 이미지 생성 모델 출시
  • 스태빌리티 AI, 효율·품질 향상한 이미지 생성 AI '스테이블 캐스케이드' 출시
  • 여러 모델 혼합한 '이미지 생성 AI' 등장..."일반인도 그래픽 디자이너처럼"