(사진=오픈AI)
(사진=오픈AI)

오픈AI가 소프트웨어 개발자를 위한 새로운 모델 'GPT-4.1'을 API로 출시했다. 이를 통해 타사보다 떨어졌던 코딩 성능을 끌어 올려, 향후 출시할 코딩 전문 인공지능(AI) 에이전트를 위한 기반을 마련하기 위한 것으로 보인다.

오픈AI는 14일(현지시간) GPT-4.1와 'GPT-4.1 미니(mini)', 'GPT-4.1 나노(nano)' 등 새로운 모델 군을 선보였다. 이들 모델은 이날부터 오픈AI API로만 제공되며, '챗GPT'에는 통합되지 않는다.

추론 기능을 갖추지는 않았다. 그래서 모델 넘버도 4.1로 정한 것으로 보인다. 또 모델이 사전 훈련한 데이터는 2024년 6월까지다.

오픈AI는 코딩 수행에 뛰어나다는 것을 강조했다. 구글이나 앤트로픽 등 경쟁사들도 최근 '제미나이 2.5 프로'와 '클로드 3.7 소네트'를 출시하며 코딩 능력을 부각하는 추세다. 이는 올 하반기에 출시할 코딩 전문 에이전트를 위한 것이다.

또 기존 'GPT-4o'의 12만8000 토큰보다 8배가량 늘어난 100만 토큰의 컨텍스트 창을 지원, 약 75만 단어를 한번에 처리할 수 있다는 것이 두드러진다. 100만 토큰은 구글의 제미나이 2.5 프로와 같은 가장 큰 규모다. 

오픈AI는 GPT-4.1이 품질 및 버그 테스트, 문서 작성 등 전체 앱을 엔드 투 엔드로 프로그래밍할 수 있다고 강조했다. 

"개발자들이 가장 중요하게 생각하는 프런트엔드 코딩, 불필요한 편집 감소, 안정적인 형식 준수, 응답 구조 및 순서 준수, 일관된 도구 사용 등 개발자들의 직접적인 피드백을 바탕으로 GPT-4.1을 실제 사용 환경에 맞춰 최적화했다"라고 밝혔다. 

또 "이런 개선을 통해 개발자들은 실제 소프트웨어 엔지니어링 작업에 훨씬 더 뛰어난 에이전트를 구축할 수 있다"라고 덧붙였다.

샘 알트먼 CEO도 X(트위터)를 통해 "벤치마크 결과도 우수하지만, 실제 활용성에 중점을 뒀다"라며 "개발자들은 매우 만족하는 것으로 보인다"라고 말했다.

내부 테스트에 따르면, GPT-4.1은 코딩 실력을 측정하는 'SWE-벤치 베리파이(SWE-bench Verified)'에서 54.6%를 기록했다. 이는 GPT‑4o보다 21.4%, 'GPT‑4.5'보다 26.6% 향상된 것은 물론, 추론 모델인 'o1'과 'o3-미니'보다도 높다. 

제미나이 2.5 프로(63.8%)와 클로드 3.7 소네트(62.3%)보다는 낮다. 하지만 GPT-4.1에 추론 기능이 없다는 것을 감안하면, 오픈AI의 코딩 실력이 많이 향상된 것으로 볼 수 있다.

코딩 능력 벤치마크 결과 (사진=오픈AI)
코딩 능력 벤치마크 결과 (사진=오픈AI)

이 외에도 멀티턴 대화 능력을 측정하는 '멀티챌린지(MultiChallenge)' 벤치마크에서는 38.3%로, GPT‑4o보다 10.5% 증가했다. 이 분야에서는 역대 9위에 해당하는 성적인데, 비추론 모델 중에서는 '클로드 3.5 소네트'에 이어 두번째에 해당한다. 

또 영상 이해 능력을 측정하는 '비디오-MME(Video-MME)'에서는 GPT-4.1가 '자막 없는 긴 비디오' 부문에서 72%라는 최고 정확도를 달성했다고 밝혔다.

이처럼  성능은 비추론 모델 중 가장 뛰어난 편이다. 또 추론 모델보다 성능이 낮은 대신, 가격이 저렴하다고 강조했다. "GPT‑4o와 동등하거나 능가하는 동시에 지연 시간을 거의 절반으로 줄이고 비용을 83% 절감했다"라고 밝혔다.

GPT-4.1의 API 가격은 입력 토큰 100만개당 2달러, 출력 토큰 100만개당 8달러다. 이는 GPT-4o는 입력 3.75달러, 출력 15달러보다 줄어든 가격이다.

특히, GPT-4.1 나노는 0.10달러/0.40달러로, 이는 GPT-4o 미니의 0.3달러/1.2달러보다 낮다. 오픈AI는 역대 가장 저렴한 가격이라고 밝혔다.

이처럼 미니와 나노는 성능은 조금 떨어지지만, 속도와 효율이 매우 뛰어나다고 강조했다. 그러나, 온디바이스나 오픈 소스에 대한 언급은 없었다.

한편, 알트먼 CEO는 전날 X를 통해 "이번 주에 좋은 소식이 많이 있다. 내일부터 시작한다"라며 가장 먼저 GPT-4.1를 공개했다. 따라서 이번 주에는 'o3'의 정식 버전과 경량화된 'o4-미니' 모델도 공개될 것으로 보인다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지