오픈AI가 14일(현지시간) 'GPT-4.1'을 공개했습니다. 이번 모델은 여러 면에서 독특합니다.
우선 최근 추세와는 달리, 추론 모델이 아니라는 점입니다. 그런데 코딩 성능이 'o1'이나 'o3-미니' 등 추론 모델보다 좋아졌다고 밝혔습니다.
그러나, 추론 기능도 없는 모델이 어떻게 더 코딩 성능이 좋아졌는지는 밝히지 않았습니다. 알려진 대로 스케일링 법칙은 벽에 막힌 상태로, 단순히 데이터와 인프라를 더 투입한다고 성능이 향상되는 것이 아나라는 것은 이제 상식이기 때문입니다.
이처럼 이번에도 모델의 기술적인 세부 사항은 밝히지 않았습니다. 대신 벤치마크 결과만 쭉 늘어놨습니다. 또 "개발자들의 직접적인 피드백을 바탕으로 GPT-4.1을 실제 사용 환경에 맞춰 최적화했다"라고만 밝혔습니다.
GPT-4.1가 어떻게 비추론 모델로 추론 모델보다 뛰어난 코딩 성능을 보였는지는 앞으로도 관심을 모을 것으로 보입니다.
그리고 더 주목되는 것은 4.1이라는 버전입니다. 오픈AI가 마지막으로 출시한 모델이 'GPT-4.5'라는 것을 감안하면 4.6으로 이름 붙이는 것이 상식적인데, 4.1로 버전이 후퇴하는 일이 벌어진 것입니다.
이는 지난 2월 샘 알트먼 CEO가 'GPT-4.5'가 추론을 적용하지 않은 마지막 모델이라고 밝힌 것과 관계가 있어 보입니다. GPT-4.5 이후 출시할 오픈AI의 주요 모델은 추론 기능을 탑재하겠다는 말입니다.
그러나 GPT-4.1은 비추론 모델입니다. 이 때문에 시간을 거스르는 이상한 이름을 붙인 것으로 보입니다.
알트먼 CEO도 이런 일이 발생하자, 이상하다는 생각을 한 것으로 보입니다. GPT-4.1 발표 이후 X(트위터)를 통해 앞으로 모델의 이름을 바꿀 뜻을 밝혔습니다. 그는 "여름까지 우리 모델 이름을 고쳐, 몇달 동안 모두가 즐거울 시간을 갖는 것은 어떨까"라는 글을 올렸습니다.
사실 오픈AI의 모델 네이밍은 충분히 혼란스럽습니다. 지난해 5월 'GPT-4o'를 선보인 이후 등장한 모델의 이름은 무려 17가지입니다. 이를 비꼬는 밈도 X에 올라 왔습니다. 여기에는 투입한 컴퓨팅 리소스에 따라 낮음(low)이나 중간(medium), 높음(high)으로 구분한 것도 포함됩니다.
이전에 알트먼 CEO는 챗GPT라는 이름에도 아쉬움을 표현한 바 있습니다. 그는 "어떤 마케팅 담당자라도 '챗GPT'라는 이름을 선택하지 않았을 것"이라며 "이렇게 많이 사용될 줄 알았더라면 이름 선택에 더 신중했을 것"이라고 밝혔습니다.
사실 모델의 이름이 헷갈리는 것은 오픈AI뿐만이 아닙니다. 앤트로픽은 '클로드 3'에 이어 '3.5', '3.7' 버전을 내놓았습니다. 구글은 제미나이 '1.5' '2' '2.5'로 버전을 구분합니다. 라마도 3에 이어 '3.1'과 '3.2' '3.3'이 등장했습니다.
그리고 '라마 4'로 넘어와서는 처음으로 모델 크기에 따라 '베히모스'니 '매버릭'이나 '스카우트'니 하는 이름을 붙였습니다. 이쯤 되면 '미니'나 '나노'는 친절하다는 생각이 들 정도입니다.
어쨌든 등장하는 모델만큼 없어지는 모델도 빠르게 늘어날 것으로 보입니다. 오픈AI는 GPT-4.1을 공개하며, 'GPT-4.5' API를 단계적으로 폐지하겠다고 밝혔습니다.
GPT‑4.1이 훨씬 낮은 비용과 지연 시간으로 GPT-4.5 성능을 따라잡았기 때문에, 비용만 많이 잡아먹는 모델을 서비스할 이유가 없다는 것입니다. 현재는 7월14일까지 API 서비스를 종료한다고 밝혔지만, 결국 챗GPT에서도 퇴출될 것으로 보입니다.
또 며칠 전에는 GTP-4를 은퇴시키고 GPT-4o로 대체한다고 발표했습니다. 결국 일주일 남짓한 사이에 모델 2개의 퇴출을 결정한 것입니다.
한편, 최근에는 첨단 모델이 등장해도 비교적 잠잠한 모습입니다. 올해 들어 등장한 '그록-3'와 GPT-4.5에 이어 라마 4까지, 기존 모델을 압도하지 못한 것이 원인으로 보입니다.
이어 14일 주요 뉴스입니다.
■ 엔비디아, 동영상 생성 AI로 애니메이션 ‘톰과 제리’ 제작
엔비디아가 최대 1분 길이의 영상을 일관성 있게 생성하는 AI 기술을 선보였습니다. 그런데 기술보다 더 눈길을 끈 것은 이를 통해 제작한 애니메이션이 톰과 제리라는 점입니다.
■ 알리바바 '쿼크', 두바오·딥시크 제치고 중국 최고 AI 앱 등극
중국 대표 AI 기업인 알리바바가 사용자 기반에서도 1위로 올라섰습니다. 세계적으로 주목받은 것은 딥시크지만, 이로 인해 가장 덕을 본 곳은 알리바바로 보입니다.
■ 알트먼 "챗GPT 사용자 폭발적 증가...전 세계 10% 사용"
알트먼 CEO가 전 세계 인구 중 10%가 챗GPT를 사용한다고 밝혔습니다. 최소 8억명이 사용한다는 말인데, 이는 5억명을 돌파했다고 밝힌 지 불과 2주만이라는 점이 놀랍습니다.
AI타임스 news@aitimes.com
