오픈AI, 추론 모델 'o3-미니' 출시..."딥시크에 성능 앞서지만 비용은 2~4배" < 산업일반 < AI산업 < 기사본문

오픈AI가 사용료를 대폭 낮춘 최신 추론 모델 'o3-미니'를 출시했다. 벤치마크에서는 딥시크의 'R1'을 앞선 것으로 나타났으나, 비용은 여전히 2~4배 비싸다. 다만, 추론 모델 시리즈 중 처음으로 무료 사용자에게도 출시와 동시에 사용을 개방했다.

오픈AI는 31일(현지시간) 홈페이지를 통해 "추론 시리즈 최신 모델이자 가장 비용 효율적인" o3-미니를 출시했다고 발표했다.

이 제품은 '챗GPT'와 API에서 모두 사용할 수 있다. 유료 요금제인 챗GPT 플러스와 팀, 프로 사용자는 곧바로 접속할 수 있으며, 기업용 챗GPT 엔터프라이즈는 일주일 뒤 서비스된다.

샘 알트먼 CEO가 예고한 대로 무료 사용자도 테스트해 볼 수 있다. 메시지 작성기에서 '추론(Reason)'을 선택하면 된다.

이 모델은 앞으로 'o1-미니'를 대체, 더 낮은 지연 시간을 제공한다. 또 기존 o1-미니의 하루 50개 메시지 제한을 세배인 150개로 늘렸다.

이밖에 '검색'과 작동, 관련 웹 소스 링크가 있는 최신 답변을 찾는다. 오픈AI는 이를 시작으로 향후 추론 모델 전반에 검색을 통합하겠다고 밝혔다. 반면, 아직 시각 기능을 포함한 멀티모달 기능은 지원하지 않는다.

오픈AI는 o3-미니가 과학과 수학, 코딩에 강점이 있으며, o1-미니보다 낮은 비용과 단축된 대기 시간이 장점이라고 강조했다. 또, 함수 호출을 포함해 개발자들이 가장 많이 요청하는 기능을 지원하는 최초의 소형 추론 모델이라고 밝혔다.

또 개발자는 이 모델의 추론 정도를 ▲낮음(low) ▲중간(medium) ▲높음(high) 등 3단계로 선택할 수 있다. 단계가 높을수록 정확도가 높아지는 반면, 추론 시간이 길어지고 비용도 증가한다. 이를 통해 사례에 맞춰 모델을 사용하라는 의미다,

성능은 o1과 o1-미니의 중간 정도라고 밝혔다. "정확도와 속도 간에 균형을 맞추는 데 집중했다"라는 설명이다.

중간 추론에서 o3-미니는 수학, 코딩 및 과학 등 분야에서 o1과 비슷하며, 더 빠른 응답을 제공한다. 또 외부 테스터들은 o1-미니보다 o3-미니의 응답을 56% 더 선호했으며, 오류는 39% 감소했다고 밝혔다.

오픈AI는 이날 기존 'o1-프리뷰'와 o1, o1-미니 등 자사 모델과의 벤치마크 결과만을 공개했다. 그러나, 기존 딥시크의 발표 자료와 비교한 결과, 대부분 '높음' 단계의 추론에서만 R1을 앞섰다.

o3-미니는 수학 경시대회 테스트인 'AIME 2024'에서 높은 추론을 적용한 경우에만 R1을 능가했다. 프로그래밍 테스트인 'SWE-벤치 베리파이(SWE-bench Verified)'에서도 R1을 뛰어넘은 경우는 높은 추론에만 해당했다. 다만, 박사 수준의 전문 지식을 테스트하는 'GPQA 다이아몬드'에서는 중간 단계 추론으로 R1을 앞질렀다.

비용은 입력 토큰 100만개당 0.55달러, 출력 토큰 100만개당 4.40달러다. 이는 오픈AI 모델로는 파격적으로 저렴한 가격이다.

그러나 '딥시크-V3' API의 입력 토큰 0.3달러, 출력 토큰 1달러는 물론, '딥시크-R1'의 입력 토큰 0.14달러, 출력 토큰 2.19달러보다는 여전히 2~4배 비싸다.

컨텍스트 창의 경우 o3-미니는 입력 20만 토큰, 출력 10만 토큰이다. 반면 R1은 입력 12만8000 토큰, 출력 13만 토큰이다.

이처럼 높은 비용을 감안하면, R1보다 뛰어난 모델이라고 볼 수는 없다. 그보다, 낮음이나 중간 단계 추론에서 기존 o1을 앞서지도 못했다. 오픈AI의 말대로 "o1과 o1 미니의 중간 정도"라고 보면 된다.

한편, 오픈AI는 지난해 12월20일 o3 공개 당시 일부 벤치마크 성적을 공개한 바 있다. 당시 o3는 AIME에서 96.7점, GPQ 다이아몬드에서 87.7점을 기록했다. 이는 R1과는 비교가 안 될 정도로 높은 점수다. 하지만, 비용은 구체적으로 밝히지 않았다.

오픈AI는 딥시크와의 차별점인 '안전성'도 강조했다. o3와 동시 발표했던 '신중한 정렬(deliberative alignment)'을 도입, 안전 및 탈옥 평가에서 'GPT-4o'를 크게 능가한다고 전했다.

이 방식은 추론 모델에 인간이 작성하고 해석 가능한 안전 사양의 텍스트를 직접 가르쳐, 답변하기 전에 '생각의 사슬(CoT)'로 추론하도록 훈련하는 것이다. 따라서 모델은 사용자 프롬프트에 답하기 전에 사람이 경고한 내용을 염두에 두고 추론한다.

이처럼 o3-미니는 최첨단 모델 o3 풀 버전 출시에 앞선 '몸풀기'로 보인다. 특히, 딥시크에 맞서 무료 사용자에게도 공개한 점이 주목된다.

임대준 기자 ydj@aitimes.com