(사진=MS)
(사진=MS)

마이크로소프트(MS)가 대표적인 소형언어모델(sLM) '파이'의 최신 버전 2종을 공개했다. 특히 이번 모델은 모바일 기기와 엣지 시스템용 sLM 중 최첨단(SOTA) 성능을 달성했다고 강조했다.

MS는 26일(현지시간) 멀티모달 처리와 하드웨어 효율성을 최적화한 새로운 오픈소스 언어 모델 ▲파이-4-멀티모달(Phi-4-multimodal) ▲파이-4-미니(Phi-4-mini)를 출시했다.

두 모델 모두 특정 작업에서 유사한 크기의 경쟁 모델들보다 뛰어난 성능을 보인다고 주장했다.

파이-4-멀티모달은 56억개의 매개변수를 갖춘 MS 최초의 멀티모달 모델로, 텍스트뿐만 아니라 이미지와 오디오도 단일 통합 아키텍처 내에서 처리할 수 있다.

텍스트, 오디오, 이미지를 동시에 처리할 수 있는 '로라 혼합(Mixture-of-LoRAs)' 기법을 사용하며, 모든 입력을 동일한 표현 공간에서 처리한다.

로라는 기존 가중치를 수정하는 대신 새로운 작업을 수행할 수 있도록 최적화된 소수의 가중치를 추가하는 방식이다. 로라 혼합은 로라를 멀티모달 처리에 적용한 것이다. 기존 텍스트 전용 모델 '파이-4-미니'에 오디오와 이미지를 처리할 수 있는 추가 가중치를 적용했다.

파이-4-멀티모달 오디오 및 시각 벤치마크 (사진=MS)
파이-4-멀티모달 오디오 및 시각 벤치마크 (사진=MS)

파이-4-멀티모달은 7개 이상의 시각 데이터 처리 벤치마크에서 평균 72점을 기록하며, 훨씬 큰 오픈AI의 'GPT-4'를 1점 미만으로 따라붙었다. 구글의 최신 모델 '제미나이 플래시 2.0'은 74.3점을 기록했다.

또 시각과 오디오 입력을 모두 포함한 벤치마크 테스트에서는 제미나이 2.0 플래시를 큰 차이로 능가했으며, 멀티모달 처리에 특화된 오픈 소스 대형언어모델(LLM)인 '인턴옴니(InternOmni)'보다 뛰어난 성능을 보였다.

한편, 파이-4-미니는 38억개의 매개변수를 갖춘 텍스트 전용 모델로, 모바일 기기에서 실행할 수 있을 정도로 컴팩트하다.

이 모델은 '디코더 전용 트랜스포머' 아키텍처를 기반으로 하며, 단어의 의미를 이해하기 위해 단어 앞뒤의 텍스트를 분석하는 표준 트랜스포머 아키텍처와 달리 단어 앞에 오는 텍스트만 분석하여 하드웨어 사용을 줄이고 처리 속도를 개선한다.

또 ‘그룹 쿼리 어텐션(GQA)’ 기법을 사용해 알고리즘의 어텐션 메커니즘에서 하드웨어 사용을 줄인다. 언어모델의 어텐션 메커니즘은 주어진 처리 작업에 가장 관련 있는 데이터 포인트를 결정하는 데 도움을 준다.

파이-4-미니 언어 벤치마크 (사진=MS)
파이-4-미니 언어 벤치마크 (사진=MS)

파이-4-미니는 텍스트 생성, 기존 문서 번역 및 외부 애플리케이션에서의 작업 수행이 가능하며, 특히 수학 및 코딩 작업과 같은 복잡한 추론을 요구하는 분야에서 뛰어난 성능을 보인다.

MS는 내부 벤치마크 테스트에서 파이-4-미니가 유사한 크기의 다른 언어 모델들보다 높은 정확도로 이러한 작업을 수행했다고 밝혔다.

이처럼 이번 파이-4 제품군은 온디바이스나 엣지 기기 등에 도입할 수 있는 모델 중 가장 뛰어난 성능을 갖췄다는 설명이다. 멀티모달 모델은 산업 현장을 모니터링하거나 불량 제품을 모니터링하는 CCTV나 카메라에 도입할 수 있으며, 미니 모델은 휴대폰용 어시스턴트로 활용하기에 적당하다.   

이처럼 MS는 sLM 파이를 간판 모델로 키우고 있다. 2022년 6월 첫 공개 이후 매해 업데이트를 실시 중이다. 

파이-4-멀티모달과 파이-4-미니는 애저 AI 파운드리허깅페이스에서 사용할 수 있다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지