네이버클라우드 “사용자 표정·말투 이해하는 옴니모달 AI에 초점” < 인터뷰 < AI산업 < 기사본문

네이버클라우드(대표 김유원)는 과학기술정보통신부 주관 ‘독자 인공지능(AI) 파운데이션 모델 개발’ 프로젝트를 통해 ‘사용자를 입체적으로 이해하는 AI 모델’을 선보이겠다고 14일 밝혔다.

네이버클라우드는 네이버, 트웰브랩스, 한국과학기술원(KAIST), 서울대학교, 포항공과대학교, 고려대학교, 한양대학교와 컨소시엄을 구성해 이번 사업에 공모했다. 그 결과, 지난 4일 최종 5개 컨소시엄에 이름을 올렸다.

성낙호 네이버클라우드 총괄은 “네이버는 파운데이션 모델 및 플랫폼의 중심축을 담당, 트웰브랩스는 데이터 총괄로서 영상 데이터를 포함한 고품질 옴니모달 학습 데이터를 구축하는 전략 및 방법론을 책임질 예정”이라며 “산학협력단의 경우, AI 원천 기술 연구 및 인재 양성에 협력하며 AI 생태계에 기술적 깊이를 더할 것”이라고 말했다.

기술적으로 가장 초점을 맞추는 부분은 옴니모달리티(Omnimodality)와 실시간 처리 AI라고 강조했다. 여기서 ‘옴니모달’이란 사용자를 입체적으로 이해하는 AI라고 볼 수 있다. 능동적으로 정보를 수집하고 분석해주는 AI다.

성낙호 총괄은 “현재의 AI 서비스는 사용자가 ‘좋은 질문’을 해야만 ‘좋은 답’을 얻을 수 있는 구조이기 때문에, 모두에게 열린 기술이라고 보기는 어렵다”라며 “옴니모달 AI는 텍스트뿐만 아니라 표정, 말투, 주변 상황 등 다양한 형태(모달리티)를 토대로 사용자를 이해해, 구체적 지시가 없어도 의도를 먼저 파악하는 ‘나보다 나를 더 잘 아는 AI’를 의미한다”라고 말했다.

이와 같은 옴니모달 AI를 매일 수천만명이 사용하는 서비스에 적용하기 위해서는 실시간 처리 능력도 필수적이다. 사용자 요청에 맞는 AI 에이전트를 적재적소에 호출해 연결하고 의미 있는 결과물을 도출할 수 있어야 한다.

예를 들어, 사용자가 “다음주 제주도 여행 계획 짜줘”라고 프롬프트 및 검색어를 입력하는 경우에는 ‘여행사 에이전트(항공사 예약)’나 ‘맛집 블로거 에이전트(맛집 추천)’ 등을 실시간으로 연결하고 조율해 최적의 결과물을 완성된 대화로 제공할 수 있어야 한다는 것이다. 이처럼 네이버의 모든 서비스는 ‘AI 에이전트를 위한 사용자 인터페이스(UI)’로 진화할 것이라는 설명이다.

그는 “결과적으로는 텍스트, 오디오, 이미지, 비디오 등 어떤 형태의 입력이든 이해할 수 있는 ‘애니 투 애니(Any to Any)’ 모델을 통해 ‘사용자의 말이 끝나길 기다리는 것이 아니라 듣는 동시에 생각하고 답을해내는 AI’를 만들어 낼 계획”이라고 말했다.

네이버클라우드는 공개 예정인 하이퍼클로바X 음성 모델에 대해서도 ‘실시간 음성 인식 및 답변’이 강점이라고 설명한 바 있다. 즉, AI의 답변 도중에 사용자가 말을 끊고 첨언하거나 일상적인 대화를 하는 형태가 가능해진다는 것이다.

이를 구현하기 위해서는 데이터 협력도 중요한 부분이라고 전했다. 성 총괄은 “트웰브랩스의 경우, 영상 이해 분야에서 기술 협력을 통해 옴니모달 AI의 실시간 이해에 도움을 주는 동시에 데이터 전략 전체에서도 협력해 나갈 것”이라며 “어떤 데이터를 어떻게 만들고 가공해야 최고의 AI를 만들 수 있는지에 대해 전략을 논의할 것”이라고 말했다.

즉, 트웰브랩스의 전문성과 네이버의 최대규모 데이터 처리 노하우를 결합해 ‘비정형 데이터’를 효율적으로 수집하고 ‘특정 편향이 없는(inductive bias free)’ 고품질 데이터 기반을 확보할 예정이다.

한편, 이번 K-AI 프로젝트에 참여하며 개발하게 될 모델에 대해 매개변수 등 자세한 정보는 공개하지 않았다. 기존 모델을 고도화할지, 아예 새롭게 모델을 제작할지도 정해지지 않았다고 덧붙였다.

성낙호 총괄은 “올해 연말 첫 중간 평가에서 최상의 결과를 얻기 위해 ‘빠른 프로토타이핑(Prototyping)과 증명’에 집중할 것”이라며 “연말까지 우리가 지향하는 옴니모달 아키텍처의 핵심 성능을 입증하고, 특히 ‘실시간 처리 기술’이 얼마나 차별화된 사용자 경험을 만들어낼 수 있는지에 대해 구체적인 데모로 명확하게 제시하는 것이 목표”라고 말했다.

이어 “백마디 말보다, 눈앞에서 작동하는 압도적 결과물로 우리의 비전과 기술력을 증명하겠다”라고 강조했다.

장세민 기자 semim99@aitimes.com