오픈AI의 'o1-미니' 모델이 'o-1 프리뷰'보다 일부 성능이 더 뛰어나다는 사실이 힘을 얻고 있다. 크기는 작지만 뛰어난 성능과 저렴한 가격을 실현, 인공지능(AI) 개발에 큰 전환점이 될 것이라는 평가다.
디 인포메이션은 19일(현지시간) 오픈AI가 공개한 시스템 카드 등을 종합, o1-미니가 상당한 경쟁력을 가졌다고 소개했다.
오픈AI의 발표에 따르면, o1-미니는 수학에서 o-1 프리뷰보다 휠씬 뛰어나다. 인간 선호도로 순위를 매기는 LMSYS에서는 3위를 차지했다. 1위는 o1-프리뷰, 2위는 GPT-4o다.
오픈AI는 수학과 코딩 분야에서 탁월하며, AIME 및 코드포스와 같은 평가 벤치마크에서 o1의 성능과 거의 일치한다고 밝혔다.
이는 모델 중 광범위한 세계 지식을 제외해 크기를 줄이고 추론 기능이 중요한 애플리케이션에 최적화했기 때문이라고 설명했다. 따라서 많은 관련 지식보다 추론이 더 중요한 수학이나 코딩에서는 기존 모델을 능가한다는 말이다.
또 미니가 강력한 성능을 발휘하는 이유 중 하나는 사용자가 질문할 때 프리뷰 모델보다 더 많은 토큰을 사용할 수 있도록 허용했기 때문이다. 오픈AI가 게시한 내용에 따르면, 미니는 프리뷰보다 토큰을 3배 더 빠르게 처리한다.
이런 점으로 인해 오픈AI는 미니가 프리뷰보다 더 오래 생각하도록 할 수 있으며, 이는 더 나은 답변으로 이어진다는 설명이다. 이를 '로그 선형 컴퓨팅 스케일링(log-linear compute scaling)'이라고도 한다.
이처럼 모델의 미니어처 형태를 개발해 효율을 향상했다는 것은, 추론을 향상한 것만큼이나 큰 성과라는 평가다.
실제로 대형언어모델(LLM)은 점점 더 커지고 있으며, 이를 저렴하게 사용할 수 있도록 축소하는 능력이 중요해지고 있다. 오픈AI가 이를 달성하기 위해 무엇을 했는지 자세하게 공개하지는 않았으나, 이는 앞으로 더 큰 화제가 될 것으로 내다봤다.
실제로 비용도 줄였다.
o1-프리뷰의 경우, 기존에 가장 저렴한 'GPT-4o' 미니에 비해 4~6배 정도 비싼 것으로 알려졌다. 하지만 미니는 프리뷰 사용료의 80% 정도에 불과하다. 따라서 미니의 사용료가 더 적을 수 있다는 것이다.
여기에 오픈AI는 o1 모델 전반적으로 가격을 더 낮추기 위해 노력하고 있다고 밝혔다. GPT-4도 상당 기간을 거쳐 가격이 대폭 하락했다.
물론 o1 라인업은 만능이 아니다. 일반적인 자연어 채팅에는 적합하지 않다. 추론 특화 모델이라 답변에 시간이 걸리고 비용도 비싸다.
또 미니는 일반상식 등에서는 프리뷰나 GPT-4o보다 성능이 못하다.
하지만 수학이나 과학, 코딩 등 특정 용도에서 환각을 줄이고 심도있는 답변을 원하는 경우에는 활용 용도가 크게 늘어난다. 금융이나 의료와 같이 환각이 치명적인 분야에서 유용한 것은 물론, 과학 기술 발전에 직접적인 도움이 될 수 있다. 이는 기존 LLM의 한계를 뛰어넘는 중요한 발전이다.
이에 따라 구글이나 앤트로픽 등 경쟁사들의 대응도 주목된다. 이들도 단순한 모델 크기나 컴퓨팅 인프라 경쟁만으로는 오픈AI를 따라잡기 어렵게 됐기 때문이다.
여기에 비슷한 모델이 등장해도, o1-미니보다 가격이 낮아야 한다는 것은 상당한 부담이 될 수 있다는 지적이다.
임대준 기자 ydj@aitimes.com
