메타가 텍스트와 이미지를 단일 모델에서 한꺼번에 처리하는 첨단 멀티모달 언어모델(LMM) ‘카멜레온(Chameleon)’을 오픈 소스로 출시했다.
벤처비트는 22일(현지시간) 메타는 다중 양식을 단일 요소에서 처리하는 LMM ▲카멜레온 7B ▲카멜레온 34B를 출시했다고 전했다.
이 모델은 지난달 22일 처음 공개, 오픈AI의 'GPT-4'나 구글의 '제미나이'와 비교되며 화제를 모았다.
기존 LMM은 다양한 양식이 입력되면 이를 텍스트나 이미지를 처리하는 개별 모델로 인코딩한 뒤 추론을 위해 인코딩을 융합하는 ‘후기 융합(late fusion)’ 방식을 사용한다.
반면, 카멜레온은 처음부터 단일 모델에서 이미지, 텍스트, 코드 등 다중 양식이 혼합된 데이터로 훈련하는 ‘초기 융합(early-fusion)’ 방식을 사용한다. 이는 GPT-4o와 제미나이만에 채택된 첨단 방식이다.
이미지도 단어를 처리하는 방식처럼 개별 토큰으로 변환한다. 또 텍스트, 코드, 이미지 토큰이 통합된 단일 체계의 어휘를 사용한다. 이를 통해 텍스트, 코드, 이미지 토큰이 모두 포함된 시퀀스에 동일한 '트랜스포머' 아키텍처를 적용할 수 있다.
한편 메타는 안전상의 문제로 이미지 생성 기능은 제공하지 않는다고 밝혔다. 따라서 사용자는 이미지 캡션 작성과 같이 시각적 및 텍스트 이해가 필요한 작업을 모델에 지시할 수 있으며, 연구 목적으로만 사용 가능하다.
또 메타는 같은 날 '재스코(JASCO)'라는 새로운 AI 모델을 출시했다.
재스코는 코드나 비트와 같은 다양한 오디오 입력을 받아 최종 AI 생성 사운드를 개선한다. 사용자가 텍스트 설명으로 코드, 드럼, 멜로디와 같은 생성된 사운드의 특징을 조정하여 원하는 최종 사운드를 정밀하게 조율할 수 있게 한다.
메타는 재스코 추론 코드를 메타의 오디오 생성 AI ‘오디오크래프트(AudioCraft)’ 라이브러리의 일부로 비상업적 용도에 한해서 공개할 계획이다.
AI로 생성된 음성 콘텐츠를 식별하고 워터마킹하는 '오디오씰(AudioSeal)'도 출시할 예정이다. 특히 오디오씰은 긴 오디오 클립에서 AI 생성 오디오를 감지하는데 탁월하며, 감지 속도가 485배 빨라졌다. 다만 상용 라이선스로 출시, 사용하려면 라이선스를 구매해야 한다.
이 외에도 메타는 대형언어모델(LLM)의 예측 토큰 수를 늘려 정확성과 속도를 개선하는 ‘멀티 토큰 예측’ 기술도 연구 목적으로 공개한다.
멀티 토큰 예측은 전통적인 자동회귀 언어 모델이 한번에 토큰 하나씩 예측하는 것과 달리, 여러 토큰을 동시에 예측함으로써 모델 성능을 향상할 수 있는 방법이다.
박찬 기자 cpark@aitimes.com
- 메타, 첨단 멀티모달 모델 ‘카멜레온’ 공개..."GPT-4o와 동일한 '초기 융합' 방식"
- 메타, LLM 성능 높이는 '멀티 토큰 예측' 아키텍처 공개
- 메타, 음악·오디오 생성 AI ‘오디오크래프트’ 오픈소스로 공개
- 저커버그 "폐쇄형 AI 기업들, '신'을 창조한다고 착각하는 듯"
- 애플, 멀티모달 훈련 프레임워크 ‘4M’ 공개..."비전 AI 향한 애플의 야망"
- 메타, '다중 토큰 예측' 코드 생성 모델 출시..."단일 토큰보다 속도·성능 개선"
- 메타, CoT 없이도 LLM 추론 향상하는 프롬프트 기술 ‘시스템 2 증류’ 공개
- 메타, 텍스트·이미지 동시 처리하는 LMM ‘트랜스퓨전’ 공개
- '챗GPT'의 네이티브 이미지 생성을 가능케 한 '트랜스퓨전' 아키텍처란
