경량 모델에 멀티모달까지 탑재한 ‘파이-1.5’

(사진=셔터스톡)
(사진=셔터스톡)

마이크로소프트(MS)가 텍스트뿐 아니라 이미지를 이해하고 답변할 수 있는 멀티모달 언어모델 ‘파이-1.5(Phi-1.5)’를 공개했다. 놀라운 것은 매개변수가 고작 13억개(1.3B)에 불과한 경량 모델로, 훨씬 적은 비용과 시간으로 대형언어모델(LLM)에 맞먹는 결과를 얻을 수 있다고 주장했다.

세마포는 2일(현지시간) MS가 지난 6월 공개한 파이썬 코드 생성 모델 '파이-1'를, 이미지를 보고 해석할 수 있는 대형멀티모달언어모델(LMM) 파이-1.5로 업그레이드했다고 보도했다. 이는 현재 가장 많이 활용 중인 메타의 오픈 소스 '라마 2 7B'의 5분 1 규모에 불과하다.

이에 따르면 파이-1.5는 13억개의 매개변수를 갖춘 경량 모델로, 인터넷에서 방대한 데이터를 수집하는 대신 '챗GPT'에서 만든 합성 데이터만을 사용해 훈련했다. 이런 합성 데이터는 '교과서(textbook)'라고 불리는 데, 기존 데이터와는 달리 이미 일정 수준 이상의 요약본 성격을 가진 것으로, AI 학습 효율을 높이게 된다. 

실제로 MS는 파이-1.5를 훈련하는 데 8개의 A100 GPU에서 단 2주가 걸렸으며, 비용은 8개의 A100 GPU를 임대하는데 2000달러(약 264만6000원)만 투입한 것으로 알려졌다. 막대한 GPU 리소스가 필요하고 수백만 달러의 비용이 드는 기존 LLM과 크게 비교된다.

여기에 언어 학습을 뛰어넘어, 이미지 학습까지 더해 최종 LMM으로 업그레이드했다는 설명이다. 

파이-1.0은 오픈 소스로, 누구나 무료로 실행할 수 있다. 하지만 멀티모달 모델은 아직 공개하지 않았다.

게다가 세마포는 GPT-4에는 약 1조7000억개의 매개변수가 있다고 추정했다. 매개변수가 많다는 것은 모델에서 생성한 토큰에 대해 더 많은 계산을 수행해야 한다는 것을 의미한다. 오픈AI가 최근 공개한 멀티모달용 'GPT-4V'도 강력한 성능만큼  실행 비용이 많이 든다. 

실제 GPT-4에서 단일 프롬프트를 실행하면 최대 5달러가 들어간다. 일반적으로 프롬프트 1000개당 약 100달러를 지불하는 정도다.

반면 성능을 유지하는 선에서 모델 크기를 줄일 수 있다는 것은 비용과 시간이 적게 들어간다는 것을 의미한다.

더 작고 성능이 약간 떨어지는 경량 모델도 이점은 있다. 같은 시간에 더 많은 작업을 처리할 수 있고, 에너지를 덜 소비해 온실가스 배출도 적다.

에세 카마르 MS 수석 연구원은 우리가 이처럼 작은 모델에서 수행하는 모든 작업은 LLM 생태계를 구축할 수 있는 흥미로운 퍼즐 조각을 제공할 것"이라며 "따라서 책임감 있게 모델을 구축하고, 현실에서 더 잘 작동할 수 있도록 노력하고 있다"라고 말했다.

물론 MS는 경량 모델이 아무리 능력이 뛰어나더라도 GPT-4 같은 대형 모델을 대체하지는 못할 것이라고 인정했다. 오히려 "두 모델은 상호 보완적"이라고 설명했다. 고차원 추론이 필요한 경우 대형 모델이 필요하지만, 문서를 요약하고 정리하는 단순한 작업의 경우 작은 모델이 효율적이다.

따라서 기업은 경량 모델과 대형 모델을 동시에 활용하는 '멀티 LLM' 구조가 효과적일 수 있다는 설명이다. 실제로 최근 미국 기업들은 이런 방식을 채택하고 있다.

또 여러 경량 모델을 작업의 서로 다른 측면을 처리하는 ‘에이전트’로 사용하는 것도 방법이라고 소개했다. 예를 들어, 한 모델은 소프트웨어를 작성하고 다른 모델은 오류를 확인하는 식이다. 

더불어 파이-1.5와 같은 경량 모델의 확산은 오픈AI의 지배력을 약화시킬 수도 있다는 분석이다. 실제 파이-1.5도 GPT-4 사용으로 비용에 부담을 느낀 MS가 자체 개발진에 지시해 만든 효율성 위주의 모델이다.
 
그만큼 오픈AI 투자로 클라우드 매출을 늘리고 주가를 끌어 올리는 등 엄청난 효과를 본 MS조차 LLM 운영 비용을 버거워하는 현실이다.

물론 당장 파이-1.5가 GPT-4를 대체할 가능성은 작다. 

그러나 전문가들은 "MS가 오픈AI를 배제하고 자체 AI 제품을 만들 수 있는지를 보여주는 것만으로 큰 가능성을 보여주고 있다"라고 평가했다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • LMM 환각 해결하는 AI 등장..."딱따구리처럼 병든 부분 골라서 치료"
  • 구글 "차세대 LLM 제미니 내년 출시...초기 테스트 성공적"
  • LLM은 옛말...이미지까지 학습한 'LMM' 뜬다