(사진=셔터스톡)
(사진=셔터스톡)

AMD가 자사 칩에 최적화된 온디아비스용 소형언어모델(LLM)을 출시했다. 엔비디아처럼 하드웨어와 관련한 소프트웨어를 동시에 개발, 관련 생태계를 확장하고 AI 칩 효용성을 끌어올리려는 의도다.

AMD는 5일(현지시간) 다양한 애플리케이션 개발을 위한 10억 매개변수의 LLM 시리즈인 ▲사전훈련 버전 ‘AMD 올모(OLMo) 1B’ ▲미세조정 버전 ‘AMD 올모 1B SFT’ ▲인간 선호도 정렬 버전 ‘AMD 올모 1B SFT DPO’ 등을 오픈 소스로 출시했다. 

AMD 올모는 데이터센터용 '인스팅트(Instinct) MI250' GPU에서 사전 훈련했으며, 강력한 추론과 명령 수행, 채팅 기능 등을 제공한다. 또 AMD는 '라이젠(Ryzen)' AI PC에서 올모 모델의 로컬 배포를 가능하도록 지원, 개발자들이 개인 PC에서 AI 모델을 활용할 수 있도록 했다.

AMD 올모 모델은 16개의 노드에서 각각 4개의 인스팅트 MI250 GPU로 총 64개의 프로세서를 사용해 1조3000억개의 토큰으로 구성된 데이터셋을 기반으로 훈련했다.

AMD 올모 3단계 훈련 (사진=AMD) 
AMD 올모 3단계 훈련 (사진=AMD) 

AMD 올모 1B 버전은 '돌마(Dolma) v1.7' 데이터셋의 하위 집합에서 훈련한 디코더 전용 트랜스포머로, 다음 토큰 예측에 중점을 둬 언어 패턴과 일반적인 지식을 포착한다.

AMD 올모 1B SFT 버전은 '툴루(Tulu) v2' 데이터셋으로 훈련한 뒤 '오픈헤르메스(OpenHermes)-2.5' '웹인스트럭트서브(WebInstructSub)' '코드-피드백(Code-Feedback)' 데이터셋 등으로 미세조정했다. 이를 통해 명령어 수행 능력을 개선하고 과학, 코딩, 수학 관련 작업에서 성능을 향상했다.

AMD 올모 1B SFT DPO 버전은 '올모 1B SFT' 버전을 '울트라피드백(UltraFeedback)' 데이터셋을 사용해 인간의 선호에 맞춰 조정, 전형적인 인간 피드백에 맞는 출력을 우선시하도록 개선했다.

AMD 올모 벤치마크 결과 (사진=AMD)
AMD 올모 벤치마크 결과 (사진=AMD)

올모 모델은 일반 추론 능력과 다중 작업 이해(MMLU)에 대한 벤치마크에서 '타이니라마(TinyLlama)-1.1B' '모바일라마(MobiLlama)-1B' '오픈ELM(OpenELM)-1_1B' 등과 같은 비슷한 크기의 오픈 소스 모델들을 능가하는 성능을 보였다.

SFT 버전은 정확도에서 상당한 개선을 보였다. MMLU 점수는 5.09%, GSM8k 점수는 15.32% 증가했다. SFT DPO 버전은 벤치마크에서 다른 오픈 소스 모델들보다 평균 2.60% 이상 성능이 우수했다.

AMD는 "오픈 소스 커뮤니티에 새로운 AI 모델을 꾸준히 제공하기 위해 최선을 다하고 있다"라며 "앞으로 협력적 노력에서 나올 혁신을 간절히 기대하고 있다"라고 밝혔다.

한편, AMD는 최근 자사 GPU를 활용한 오픈 소스 모델을 잇달아 출시하며 엔비디아 전략을 따라하고 있다. 

지난 10월에 온디바이스 언어모델(AMD-Llama-135M)과 코딩모델(AMD-Llama-135M-code)를 오픈 소스로 출시했다.

앞서 7월에는 ‘어뮤즈 2.0(Amuse 2.0)’ 베타라는 이미지 생성 모델도 출시한 바 있다. 이 역시 AMD 하드웨어 기반 PC에서 온디바이스 AI로 활용할 수 있는 모델이다. 

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지