(사진=오픈AI)
(사진=오픈AI)

오픈AI가 추론 모델 'o1'과 'o3-미니'에 이미지와 파일 업로드를 지원한다고 밝혔다. 이제부터는 추론 모델도 멀티모달 기능이 기본이 될 전망이다.

오픈AI는 13일(현지시간) X(트위터)를 통해 "여러분이 좋아할 만한 두가지 업데이트"라는 글을 게시했다.

우선 o1 및 o3-미니가 이제 '챗GPT'에서 파일 및 이미지 업로드를 모두 지원한다고 밝혔다. 오픈AI 추론 모델에 멀티모달을 적용한 것은 이번이 처음이다.

이전부터 사용자들이 가장 많이 요청했던 것이기도 하다. 엑셀 파일이나 그래프 요약을 통한 추론에 대한 수요가 많았다.

다만, 아직 초기 단계로 성능이 기대에 미치지 못한다는 반응이 등장했다. 또 가장 성능이 뛰어난 'o1-프로'에는 아직 적용되지 않았다.

추론 모델에 멀티모달을 지원하는 것은 오픈AI가 처음이 아니다. 구글은 지난 5일 '제미나이 2.0 프로'와 '제미나이 2.0 플래시'를 출시하며 멀티모달 기능을 지원한다고 밝혔다. 특히, 프로 버전은 최대 200만 토큰의 컨텍스트 창을 제공, 약 150만 단어를 한번에 처리할 수 있다.

이에 비해 o1과 o3-미니의 컨텍스트 창은 3만2000~12만8000 토큰에 불과하다. 이와 관련, 케빈 와일 오픈AI 최고 제품담당자는 지난 11월 레딧 채팅 이벤트에서 "컨텍스트 창 확장을 위해 노력하고 있다"라고 밝혔다. 

또 이에 앞서 알리바바는 지난해 12월 'QVQ-72B-프리뷰'라는 멀티모달 추론 모델을 공개했다. 이는 중국을 넘어 오픈 소스로 출시된 세계 최초의 멀티모달 추론 모델로 꼽힌다.

이처럼 주요 AI 개발사들은 단순 추론을 넘어 멀티모달 추가로 딥시크와 차별화를 나서고 있다. 

또 오픈AI는 이날 챗GPT 유료 요금제인 플러스 사용자에게 'o3-미니-하이'의 한도를 7배 높여 하루 최대 50개까지 허용한다고 밝혔다.

이 모드는 o3-미니의 추론 시간과 컴퓨팅 용량을 최대한 확장한 것으로, 깊이 있는 사고와 정밀한 분석이 필요한 작업에 적당하다. 샘 알트먼 CEO가 "정말 좋다"라고 칭찬했던 모델로, o3 풀 버전이 공개되지 않은 현재 세계 최고의 추론 성능을 갖췄다고 볼 수 있다.

특히 복잡한 코딩이나 전문 과학 연구 등에 유용하다. 코딩 능력을 테스트하는 벤치마크 '코드포스'에서는 2130점의 ELO 점수로, o3 풀버전을 제외한 모든 오픈AI 모델의 점수를 뛰어넘었다.

이처럼 오픈AI는 최근 지속적으로 모델을 출시하고 크고 작은 업데이트를 계속 발표하고 있다. 또, 앞으로 출시될 GPT-5에도 멀티모달 추론이 도입될 것으로 보인다.

이에 따라 o3와 통합될 GPT-5는 기본적인 모델의 능력치에 최고의 추론 능력, 검색 기능, 멀티모달 및 멀티모달 추론 기능, 음성 비서 기능, '딥 리서치'와 '오퍼레이터'와 같은 에이전트 기능까지 통합한 압도적인 스펙을 갖출 것으로 보인다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지