오픈AI DALL·E의 경량화 버전...15일 깃허브 공개 누구나 사용 가능
텍스트 명령어 입력시 적절한 이미지 그려...이미지에서 텍스트 생성 불가
지난달 공개한 초거대 언어모델 KoGPT 모델 크기도 5배 확대

minDALL-E가 생성한 이미지(출처=카카오브레인)
minDALL-E가 생성한 이미지(출처=카카오브레인)

카카오브레인(대표 김일두)이 이미지·텍스트를 함께 다루는 초거대 멀티모달 AI 'minDALL-E'를 15일 공개했다.

국내 기업 중 이미지와 텍스트를 동시에 다루는 AI를 발표한 것은 카카오가 두 번째다. 카카오 이전에는 LG가 14일 초거대 멀티모달 AI '엑사원(EXAONE)'을 공개한 바 있다.

카카오브레인이 개발한 minDALL-E는 텍스트 명령어에 따라 이미지를 만들어준다. 이미지 입력값에 대해 텍스트를 만드는 일은 현재로서는 수행하지 못한다. LG 엑사원의 경우 이미지-텍스트 양방향 생성이 가능하다.

카카오 모델 경쟁력은 작은 규모로 만들어 누구나 사용할 수 있도록 빠르게 배포한 것에서 나온다. minDALL-E는 1400만장 텍스트와 이미지 세트 데이터를 통해 사전 학습했다. 이후 15일 세계 최대 오픈소스 커뮤니티 깃허브(github)에 공개됐다.

카카오브레인 김일두 대표는 "인공지능이 사람처럼 생각하고 말하려면 어떤 요소가 필요할 지, 인공지능에게 기억력, 추론 능력, 이해 능력이 있다면 사람처럼 소통할 수 있을지 등 끝없이 질문을 던지며 연구하고 있다"고 말했다.

이어 "최근 공개한 언어 모델 KoGPT과 이번에 공개한 DALL-E를 시작으로 순차적으로 초거대 AI의 다양한 모델을 공개할 것이다. 이는 차세대 딥러닝 구축을 위한 필수 연구 과정으로 해당 모델을 오픈 소스로 공개해 국내 IT 생태계 기술 발전에 기여할 것"이라고 전했다.

DALL·E와 같이 텍스트에서 이미지 생성...삽화·교육자료로 사용 가능

minDALL-E의 작동 방식은 기존 초거대 멀티모달 AI인 오픈AI DALL·E와 동일하다. "바나나 껍질로 만든 의자 그려줘", "보름달과 파리 에펠탑이 같이 있는 그림 보여줘", "살바도르 달리 화가 스타일로 그려줘"와 같은 명령어를 입력하면 AI가 텍스트 맥락을 이해하고 바로 이미지를 만들어준다.

검색을 통해 이미지를 찾아내는 것이 아니라, AI가 텍스트 명령을 스스로 이해하고 직접 이미지를 그리는 방식이다.

minDALL-E가 활용될 분야로 카카오브레인은 콘텐츠 산업을 꼽았다. 카카오브레인은 "스토리텔링 콘텐츠의 삽화를 만들거나, 교육 자료 제작 등에 활용하는 등 다양한 콘텐츠 산업에 적용할 수 있을 것으로 기대된다"고 말했다.

minDALL-E가 생성한 이미지(출처=카카오브레인)
minDALL-E가 생성한 이미지(출처=카카오브레인)

초거대 언어모델 KoGPT 매개변수, 60억개에서 300억개로

지난달 카카오브레인이 공개한 초거대 AI 언어모델 'KoGPT' 모델 크기도 5배 확대됐다.

카카오브레인은 "KoGPT 모델의 매개변수(파라미터)를 60억개에서 300억개의 사이즈까지 5배 늘려 이전보다 더 정확하게 명령을 이행할 수 있도록 만들었다"고 밝혔다.

모델 크기를 단기간에 확대할 수 있었던 비결로는 슈퍼컴퓨팅 인프라를 꼽았다.

카카오브레인은 "구글에서 개발한 텐서 처리 장치인 '구글 TPU'를 도입하면서 1엑사플롭스를 뛰어넘는 국내 최대 규모의 딥러닝 슈퍼컴퓨팅 인프라를 활용해 연구 효율을 높였다"고 전했다.

17일 오픈 미니 컨퍼런스 열고 자세한 내용 소개

카카오브레인은 오는 17일 '오픈 미니 컨퍼런스'를 온라인으로 개최하고 KoGPT와 minDALL-E에 대해 자세히 소개할 계획이다.

본 행사는 카카오브레인의 최신 연구 성과와 기술 노하우, 미래 비전 등을 공유하기 위한 기술 컨퍼런스다. CEO세션을 비롯해 카카오브레인의 다양한 기술을 소개하는 19개 세션 발표가 진행될 예정이다.

minDALL-E에 대한 발표는 카카오브레인 GM(Generative Model)팀 김세훈 연구원이 담당한다. KoGPT는 김일두 대표가 직접 소개한다.

행사 마지막에는 카카오브레인의 비전 '언싱커블 퀘스천(Unthinkable Question)'을 주제로 초거대 AI를 비롯한 2022년 핵심 기술 연구 로드맵을 공개할 예정이다.

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]LG 초거대 AI '엑사원' 등장...언어와 이미지, 한국어와 영어 같이 다뤄

[관련기사]딥마인드도 초거대 AI 언어모델 고퍼 공개...크기 대비 성능이 차별점

키워드 관련기사
  • 네이버, 초거대 AI 후속 연구 공개...영어·이미지까지 영역 확장 중
  • [분석] 베일 벗은 카카오 초거대 AI ‘KoGPT’, 기존 모델과 비교해보니
  • 오픈AI, 앤드류 응도 놀란 DALL·E 공개...GPT-3 원리로 획기적인 이미지 제작 혁신