카카오(대표 정신아)는 1일 공식 기술 블로그를 통해 통합 멀티모달 언어모델 '카나나-o(Kanana-o)'와 오디오 언어모델 '카나나-a'의 성능과 개발 리뷰를 공개했다.
카나나-o는 음성과 이미지, 텍스트의 형태로 입력을 받을 수 있다. 상황에 따라 텍스트나 음성으로 응답할 수 있게 설계됐다.
이를 통해 ▲배경음이 섞인 상황에서의 음성 인식 ▲음성의 감정 묘사 ▲감정을 반영한 음성 생성 ▲지역 방언의 이해 ▲음성 통역 ▲이미지를 이해하고 음성으로 응답 등을 제공한다.
카나나-o는 지난해 12월 공개한 멀티모달모델(LMM) '카나나-v'와 카나나-a를 병합하는 방식으로 구축된 통합 모델이다. 모델 병합은 서로 다른 임무에 특화된 모델을 하나로 통합하는 방법으로, 학습 시간을 단축할 수 있다는 장점이 있다.
카나나-v는 정제 과정을 거친 이미지-텍스트 쌍 데이터를 학습했다. 이 데이터셋을 기반으로 입력과 응답 텍스트에 대응하는 음성을 TTS(텍스트 음성 전환) 모델을 통해 생성, 카나나-o 학습에 사용했다.
기존 LLM은 이미지-텍스트, 또는 오디오-텍스트처럼 두개의 모달리티 데이터셋을 학습했지만, 카나나-o는 이미지-오디오-텍스트 등 3가지 모달리티에 연결성과 상호 작용을 학습한 것이 특징이다.
성능을 평가하기 위한 삼중모달 평가셋을 구성, 기존 벤치마크의 텍스트 명령어를 음성으로 변환해 이미지와 함께 입력한 뒤 카나나-o텍스트 응답을 평가했다. 또 자체 구축한 한국어 맞춤형 평가 데이터셋을 통해 비교한 결과, 카나나-o가 'GPT-4o'와 '제미나이-1.5'보다 한국어 음성에 담긴 미묘한 감정을 잘 이해한다고 설명했다.
카카오는 향후 음성 기반 멀티턴 대화 처리와 사용자와 시스템의 양방향 대화 구조, 다국어 확장, 안전성 강화 등 과제를 해결하는 것이 목표라고 밝혔다.
김병학 카나나 성과리더는 “카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화할 것”이라며 “독자적인 멀티모달 기술을 바탕으로 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 기여할 계획”이라고 말했다.
박수빈 기자 sbin08@aitimes.com
