(사진=유튜브)
(사진=유튜브)

레카 AI가 오픈AI 'o1-미니'와 견줄 만한 성능을 발휘하며 저지연 환경이나 온디바이스 배포에 적합한 소형 추론 모델을 오픈 소스로 출시했다. 첨단 성능을 기록한 것은 아니지만 범용성과 효율성을 강조한 모델로, 추론 모델도 점차 세분화된다는 것을 보여주는 사례다.  

레카는 10일(현지시간) 210억개의 매개변수를 갖춘 추론 모델 ‘레카 플래시 3(Reka Flash 3)’ 미리보기 버전을 오픈 소스로 출시했다고 발표했다. 이는 '딥시크-R1'의 매개변수 6710억개의 3% 정도에 불과한 크기다.

하지만 3만2000개의 토큰 컨텍스트 창을 갖췄으며, 일반 채팅과 코딩 지원, 지시 수행, 함수 호출 등 다양한 용도를 위해 설계됐다. 

먼저 합성 데이터와 공개 데이터셋을 활용한 사전 훈련(pre-training)을 진행하고, 이후 고품질의 선별된 데이터를 사용해 지도 미세조정(SFT)을 거쳐 성능을 개선했다. 마지막으로, 'RLOO(REINFORCE Leave One-Out)' 기법을 활용한 강화 학습을 통해 추가 성능 향상을 이뤘다.

'o1'이나 '딥시크-R1' 등 첨단 성능을 기록한 프론티어 급은 아니다. 대신, 작지만 다양한 기능을 수행할 수 있는 범용성과 효율성에 초점을 맞췄다.

모델은 <reasoning></reasoning> 태그를 사용해 추론 과정을 구분하며, 사용자가 추론 단계를 설정하고, 이후 추론을 중단할 수 있다.

이를 통해 모델의 사고 과정을 특정 단계로 제한하고, 불필요한 연산 부담을 줄이며 일관된 성능을 유지할 수 있다. 이 기능은 컴퓨팅 비용에 맞춰 처리 시간을 조절할 수 있어 개발자들에게 높은 유연성을 제공한다.

배포 측면에서 저비용 환경, 저지연 애플리케이션, 로컬 디바이스 실행에 최적화되어 있다. FP16 기준 39GB의 크기이지만, 4비트 양자화(quantization)를 통해 11GB로 압축할 수 있다. 이는 'QwQ-32B' 같은 모델이 4비트 양자화 시 18GB를 필요로 하는 것과 비교해 더 효율적인 메모리 사용이 가능하다.

벤치마크 결과 (사진=레카 AI)
벤치마크 결과 (사진=레카 AI)

레카 플래시 3의 실용성은 평가 지표와 성능 데이터에서 더욱 뚜렷하게 드러난다.

'MMLU-프로' 점수는 65.0으로 다소 낮지만, 수학이나 과학, 코딩 등에서는 o1-미니나 'QwQ-32B' 등과 비슷한 성능을 보인다. 또 웹 검색과 같은 추가적인 지식 자원과 결합하면 강력한 경쟁력을 발휘한다.

레카는 "도메인별 모델이나 자체 추론 엔진을 구축하기 위한 훌륭한 기반이 될 수 있다"라고 강조했다.

한편, 레카 AI는 구글 딥마인드와 메타 출신의 연구원들이 설립했으며, 32개 언어 지원과 12만8000개의 토큰 컨텍스트 창을 제공하는 멀티모달모델‘레카 코어(Reka Core)’를 출시하며 유망 스타트업 중 하나로 꼽혔다. 지난해 10억달러(약 1조4000억원) 규모로 스노우플레이크에 인수됐다.

현재 레카 플래시 3 모델은 허깅페이스에서 다운로드할 수 있으며, 레카 스페이스에서 사용해 볼 수 있다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지