카카오가 인공지능(AI) 모델 라인업을 공개하고, 한국어 벤치마크 테스트에서도 글로벌 모델 대비 높은 성능을 기록했다고 전했다. 그러나 모델의 세부 사양과 벤치마크의 근거 등은 밝히지 않았다.
카카오(대표 정신아)는 23일 '이프카카오' 컨퍼런스에서 전날 공개한 '카나나(KANANA)' 모델 라인업을 발표했다.
AI 모델 개발을 총괄하는 김병학 카나나알파 성과리더는 "기존에 개발한 '코GPT' '칼로' '허니비' 등 모델을 고도화, 카나나를 카카오 서비스에 최적화된 모델로 제공한다"라고 설명했다.
구체적으로는 대형언어모델(LLM) 3종과 멀티모달모델(MLLM) 3종, 이미지 및 동영상 생성 모델 2종과 음성 모델 2종 등 모두 10개에 달한다.
이중 중소형 LLM '카나나 에센스'와 모바일에서 사용할 수 있는 소형언어모델(sLM) '카나나 나노'는 현재 카카오 서비스에 적용 중이다.
김 리더는 "가장 큰 카나나 플래그는 현재 개발 중"이라며 "글로벌 경쟁력을 가진 모델을 만들 것"이라고 말했다.
세션에서 가장 강조한 모델은 중간급 크기의 에센스로, "서비스에 최적화된 모델 사이즈로 다양한 환경에서 사용할 수 있다"라는 설명이다.
이어 저작권과 개인정보 문제를 해결한 고품질 데이터를 기반으로 필터링과 데이터 큐레이션 등의 작업을 통해 데이터셋을 구축했다고 소개했다. 3차례의 멀티 스테이지 학습을 통해 유효한 성능을 내는 방법들을 병합, 에센스 모델을 완성하게 됐다고 밝혔다.
김 리더는 "벤치마크 테스트 결과 에센스 모델이 글로벌 모델과 유사하거나 높은 성능을 보였다"라며 "특히 한국어 논리 및 추론을 평가하는 KMMLU, HAR-RAE 벤치마크에서 높은 성능을 보였다"라고 말했다.
그러나 비교 대상과 벤치마크 세부 결과는 공개하지 않았다. 나노 모델도 비슷한 크기의 글로벌 모델과 비교한 결과 압도적 성능을 보였다고 했으나, 내용에 대해서는 함구했다.
한편, 베이스 모델을 기반으로 사용자 지시를 명확히 이해하고 따를 수 있는 '인스트럭트 모델(Instruct model)'도 선보였다.
여기에서는 검색 증강 생성(RAG)과 함수호출(Function-call), 요약 등의 성능이 오픈Ai의 'GPT-4o'에 근접하거나 넘어섰다고 밝혔다. RAG와 함수호출의 경우 GPT-4o 대비 92%의 성능, 요약에서는 106%의 성능을 보였다는 주장이다.
이와 관련, 카카오는 지난 9월 함수호출 벤치마크 데이터셋을 오픈 소스로 공개한 바 있다.
이후 이미지와 음성을 이해하고 음성 출력이 가능한 '카나나-o(옴니)' 모델의 데모앱 영상을 공개했다. 사용자의 음성을 인식하고 간단한 문답을 주고받을 수 있는 수준이다.
김 리더는 "통합 멀티모달 언어모델로 진화할 예정"이라며 "음성 뿐만 아니라 이미지와 동영상을 생성해 직관적으로 이해할 수 있는 답변을 제공할 수 있을 것"이라고 덧붙였다.
마지막으로 이미지 생성 모델 ‘콜라쥬 바이 카나나(Kollage by kanana)’와 동영상 생성 모델 ‘키네마 바이 카나나(Kinema by kanana)’를 소개했다. 키네마 모델은 영상 생성 뿐만 아니라 카메라와 캐릭터의 움직임을 쉽게 제어할 수 있게 되고, 이를 통해 풍부하고 다채로운 비디오 콘텐츠를 제작할 수 있다고 설명했다.
카카오는 이 제품들을 별도의 AI 서비스로 제공할 계획이며, 내부 생산성 향상을 위해 카나나 모델을 적용할 계획이라고 전했다. 그러나 출시 시기는 언급하지 않았다.
박수빈 기자 sbin08@aitimes.com
