26년 전 발매된 펜티엄 2 PC를 이용해 대형언어모델(LLM)을 구동, 글을 생성하는 모습이 공개됐다. 이는 고가의 GPU 없이도 누구나 LLM을 사용할 수 있다는 것을 보여주기 위한 프로젝트의 일환이다.
스타트업 EXO는 29일(현지시간) X(트위터)를 통해 인텔 펜티엄 2 CPU와 128MB RAM을 장착한 26년 된 PC에서 윈도우 98로 '라마'를 작동하는 데 성공했다고 발표했다.
이에 따르면 EXO는 이베이에서 118.88파운드(약 22만원)에 PC를 구입했다. 여기에 이더넷 포트를 통해 파일을 집어넣기 위해 노트북에서 FTP 서버를 구동하는 방식으로 PC에 파일을 전송했다.
가장 애를 먹은 부분은 윈도우 98에서 최신 코드를 컴파일하는 부분이었다. 몇차례 시도 끝에 26년 된 IDE이자 윈도우 98에서 직접 실행되는 컴파일러를 찾아냈다.
특히 모델의 구동을 위해 오픈AI 창립자 출신인 안드레이 카파시가 제작한 'llama2.c'를 동원했다. 이는 '라마 2' 아키텍처를 가진 모델에서 추론을 실행할 수 있는 700줄의 C 언어다.
그 결과 이 PC는 라마 아키텍처를 갖춘 260K LLM을 사용해 윈도우 98에서 초당 35.9토큰의 인상적인 속도로 답변을 생성해 냈다.
대신 모델 크기가 15M로 커지면 속도가 초당 1토큰, 촤신형인 '라마 3.2'에서는 초당 0.0093토큰으로 '빙하기'처럼 느렸다고 전했다.
EXO는 옥스포드대학교의 연구원과 엔지니어 팀이 설립한 '오픈 소스 다중 기기 컴퓨팅 클러스터' 전문 스타트업이다. "프론티어 모델을 훈련하고 모든 인간이 어디서나 실행할 수 있도록 개방형 인프라를 구축하는 것"을 목표로 내세우고 있다.
지난 11월에는 새로운 맥 미니와 맥 프로를 연결, '라마-3.1 405B'와 엔비디아의 '네모트론 70B', '큐원 2.5 코더-32B' 등을 실행하는 모습으로 화제가 됐다.
특히 비트넷(Bitnet)이라는 트랜스포머 아키텍처를 통해 7B 매개변수 모델을 1.38GB의 스토리지만으로 구동할 수 있다고 주장하고 있다. 비트넷은 고가의 GPU 없이도 CPU만으로 초당 5~7토큰 속도로 100B 매개변수 모델을 활용할 수 있다고 소개됐다.
임대준 기자 ydj@aitimes.com
