대형언어모델(LLM) 개발에 난항을 겪는 것으로 알려진 아마존이 영상을 이해하는 멀티모달모델(LMM)을 내놓을 것으로 알려졌다. 다른 AI 모델과 차별화 포인트로 '영상 검색'을 내세웠다는 분석이다.
디 인포메이션은 27일(현지시간) 소식통 2명을 인용, 아마존이 텍스트 외에도 이미지와 비디오를 처리할 수 있는 새로운 생성 AI 모델을 개발했다고 보도했다.
이에 따르면 영상 생성이 아닌, '영상 이해' 모델로 알려졌다. 사용자가 텍스트 프롬프트로 특정 장면에 대한 비디오 아카이브를 검색할 수 있는 기능을 갖췄다.
영상 이해는 오픈AI나 구글도 가능하지만, 아직 전면에 내세우지 않는 기능이다. 예를 들어, 오픈AI는 지난 5월 'GPT-4o' 공개 당시 선보였던 이미지 분석도 아직 소비자용 '챗GPT'에는 포함하지 않았다. 대신 영상 이해는 국내 스타트업 트웰브랩스가 강점을 보이고 있다.
이 기능은 지난해 11월 '올림푸스(Olympus)'라는 코드명으로 알려진 모델에 포함될 것으로 알려졌다.
올림푸스는 역대 최대 규모인 2조개의 매개변수를 갖춘 모델로 소개되며 큰 기대를 모았다. 또 소식통에 따르면 4000억개의 매개변수가 있는 텍스트 전용 모델 등 모두 4개의 LLM을 개발할 계획이었다.
그러나 1년이 지나도록 출시 소식이 전해지지 않았으며, 대신 아마존 내부에서는 모델 성능이 기대에 미치지 못한다는 말이 흘러나왔다. 특히 음성 비서 '알렉사'와의 통합에 애를 먹는 것으로 알려졌다.
아직도 성능은 오픈AI나 앤트로픽에는 못 미치는 것으로 전해졌다. 또 매개변수도 당초 알려진 2조개가 아니라, 오픈AI GPT-4(1.5조개로 추정)과 메타의 '라마' 최신 모델(405B)의 중간쯤으로 추정된다.
그래서 아마존 임원진은 영상 이해 기능을 차별점으로 강조한다는 말이 나왔다. 또 기타 경쟁사보다 모델 사용료를 저렴하게 제공할 가능성이 높다고 전했다.
특히 다음 주에 열리는 연례 'AWS 리인벤트(re:Invent) 컨퍼런스에서 올림푸스를 발표할 수도 있는 것으로 알려졌다.
한편, 아마존은 지난주 앤트로픽에 40억달러 추가 투자를 발표하는 등 갈수록 의존도가 커지고 있다. 알렉사에 탑재할 모델도 앤트로픽의 '클로드'라는 말이 나왔다.
이 가운데 아마존은 영상 이해 기능을 갖춘 올림푸스가 앤트로픽 의존도를 줄여줄 수 있을 것으로 기대한다는 말이 나왔다. 현재 아마존은 2023년 4월에 출시한 '타이탄'이라는 LLM을 보유하고 있다.
임대준 기자 ydj@aitimes.com
