(사진=셔터스톡)
(사진=셔터스톡)

'GPT-5'가 출시된 지 며칠이 지났습니다. 가장 두드러진 것은 반응이 엇갈린다는 점입니다.

GPT-5 초기 테스트에 참가했던 이들이나 일부 전문가는 성능 개선을 체감하며 칭찬을 아끼지 않고 있습니다. 반면, 많은 사용자는 좋아진 것이 무엇인지 잘 알 수 없다고 하고, 심지어는 이전보다 더 못하다고도 지적합니다. 이는 서비스 초기 라우터가 제대로 작동하지 않았던 점도 한몫한 것으로 보입니다.

오픈AI가 이전보다 더 못한 모델을 내놓았다는 것은 상식에 맞지 않습니다. 다만, 성능 체감이 'GPT-4' 등장 당시에 못 미친다는 것입니다.

사실 이런 점은 예고됐습니다. 오픈AI가 이례적으로 모델 출시 전부터 홍보에 집중한다고 전해드린 바 있는데, 이는 벤치마크 등에서 괄목할 성적을 내지 못했기 때문일 수 있다는 분석이었습니다. 실제 GPT-5는 벤치마크에서 다른 모델보다 좋은 성적을 보이긴 했지만, 그 차이는 크지 않습니다. 그리고 일부 분야에서는 떨어지기도 했습니다.

이번 주부터 전문가들의 해석이 쏟아지고 있습니다. 가장 많이 지적된 것은 최근 너무 많은 모델이 등장, GPT-5가 독보적인 모습을 보여주기 어려웠다는 점입니다.

최근 기술 발전이나 첨단 모델 출시 주기가 빨라졌다는 것은 잘 알려진 사실입니다. 오픈AI만 해도 올해 들어 'o1'과 'o3' 'GPT-4.1' 'GPT-4.5' 등 파운데이션급 모델을 4개나 내놓았습니다. 이중 o1과 o3는 추론을 사용, AI의 패러다임을 바꾼 사례입니다.

이런 상황에서 몇개월 만에 완전히 혁신적인 새 모델이 나온다는 것 자체가 불가능하다는 말입니다. 그리고 고급 사용자들은 이미 o3와 같은 모델에 익숙한 상태라, 체감이 더 떨어질 수밖에 없다는 지적입니다. 실제로 GPT-5는 "기존 o 시리즈 모델의 추론 능력과 GPT 시리즈의 빠른 응답 속도를 결합한 모델"이라는 설명입니다.

그리고 두번째로 지적되는 점은 GPT-5에 포함된 기술적인 혁신 포인트가 확실하지 않다는 것입니다. 환각을 줄이고 수학이나 코딩 같은 분야를 강화했다고 하지만, 그게 어떤 원리인지는 정확하게 설명하지 않습니다.

이와 관련, 마이클 로바초스 에든버러대학교 인공지능학과 교수는 11일 더 컨버세이션을 통해 오픈AI가 GPT-5를 통해 LLM의 새로운 패러다임을 시도하는 것으로 보인다고 설명했습니다.

그는 "오픈AI가 새롭게 중점을 두는 것은 1990년대 AI 분야에서 각광받았던 '메타 추론'에서 영감을 얻은 것으로, '추론에 대한 추론'이라는 개념을 기반으로 한다"라고 밝혔습니다.

추론은 사용 가능한 정보를 사용해 예측을 생성하고, 생각하고, 결론을 도출하는 것을 말합니다. 추론에 대한 추론이란, 각 상황이 과연 추론할 만한 가치가 있는지를 따로 검토하는 것을 말합니다. 이런 방식은 복잡한 작업을 더 작은 문제로 나누어 더 전문화된 구성 요소로 해결할 수 있도록 하는 데 중요하다는 것입니다.

또 이는 자기회귀 구조의 범용 LLM 이 등장하기 전까지는 AI의 주요한 패러다임이었다고 밝혔습니다. 일종의 '휴리스틱(Heuristic)' 방식이 떠오르게 합니다.

즉, 오픈AI가 이번에 시도한 것은 완전히 새로운 방식이 아니라, AI의 고전 개념으로 회귀하는 것을 의미할 수 있다는 것입니다. 또 그는 "GPT-5의 출시는 AI 진화의 전환을 의미할 수 있으며, 이전 방식으로의 복귀하는 것은 아니더라도 더 복잡한 모델을 만들어내는 종말을 예고할 수도 있다"라고 밝혔습니다.

이는 현재 LLM 아키텍처에서 새로운 성능 향상이 어려울 수도 있다는 말로, 이는 오픈AI 내부에서도 o1보다 o3의 환각률이 더 높은 것을 보고 한계에 부딪혔던 것으로 알려져 있습니다.

물론, 로바초스 교수는 오픈AI의 새로운 추론 방법이 무엇인지는 확실하지 않으며, 새로운 알고리즘이나 데이터를 사용한 것은 아닌 것으로 보인다고 말했습니다. "따라서, 반복적인 쿼리를 통해 기존 모델을 제어하고 더 나은 결과를 얻을 때까지 더 열심히 일하도록 하는 또 다른 방법일 뿐이라고 추측할 수도 있다"라고 말했습니다.

이는 오픈AI가 '범용 검증기(Unovbersial Verifier)'라고 부르는 기술과도 비슷한 맥락입니다. LLM이 LLM의 답변을 검토하고 개선해 주는 방식을 말합니다.

그러나 오픈AI는 공식적으로 이 단어를 언급한 적도 없고, 수학올림피아드 금메달 획득이나 코딩 챔피언십 성적 등을 강조하며 외부에 힌트만 던져주는 수준입니다.

(사진=오픈AI)
(사진=오픈AI)

그리고 이런 기술 발전을 통해 이뤄낸 성과가 미묘하고 잘 드러나지 않는 것이라는 말도 나왔습니다. 디 인포메이션은 전문가들의 말을 인용, "사용자들이 GPT-5의 기능을 한계까지 끌어올리려면 아마 며칠이 걸릴 것"이라고 전했습니다.

또 "이 모델의 많은 개선 사항들은 정보 조작 빈도를 줄이거나 방대한 텍스트에서 작은 세부 정보를 찾을 수 있도록 하는 것처럼 미묘한 것들"이라며 "이런 개선 사항들은 그다지 눈에 띄거나 인상적이지는 않지만, 비즈니스 환경에서 모델을 안정적으로 사용하려는 고객들에는 매우 중요하다"라고 소개했습니다.

이런 점 때문에 오픈AI가 모델 출시 전부터 다양한 경로를 통해 모델 성능에 대한 점을 암시해 왔던 것으로 보입니다. "좋은 건 맞는데, 말로 설명할 수는 없다"라는 말이 떠오릅니다.

그리고 확실한 점은 이제 오픈AI는 모델의 발전을 벤치마크 숫자가 아닌, 사용 사례로 설명하려는 것으로 보입니다. 또 AI가 모든 것을 다 잘하는 것은 아니라는 점도 강조했습니다.

기대치가 너무 높았던 점도 한몫하고 있습니다. "의심할 여지가 없이 GPT-5는 좋은 모델이지만, 과대광고에 부응했는지에 대한 답은 명확하지 않다"라는 말이 이를 잘 설명해 줍니다.

GPT-5가 AI의 발전에서 어떤 위치를 차지했는지는 결국 시간이 말해줄 것으로 보입니다. 특히, 경쟁자들이 어떻게 대응하느냐가 힌트가 될 것으로 보입니다.

이어 11일 주요 뉴스입니다.

LG AI연구원 "국대 모델 사업서 글로벌 프론티어 성능 100% 이상 목표"

정부의 독자 AI 모델 사업에 참여한 LG AI연구원이 세계 최첨단 모델과 맞먹는 결과를 내겠다고 밝혔습니다. 지난주 NC AI도 비슷한 목표를 밝혔습니다. 계획대로라면 내년 말쯤에는 국내에도 'GPT-6'나 '제미나이 3'와 같은 모델이 등장해야 합니다.

알트먼 "챗봇 '망상' 피하려고 GPT-4o 폐기 시도한 것은 실수"

알트먼이 GPT-4o를 폐기하려고 했던 것이 '망상 부추김' 때문이었다고 털어 놓았습니다. 지난 4월에는 아부 문제로 모델 롤백까지 실시했는데, AI가 정신 건강에 미치는 영향에 대해 꽤 신경 쓰는 것으로 보입니다.

(사진=셔터스톡)
(사진=셔터스톡)

엔비디아·AMD, 중국 칩 판매 대가로 미국 정부에 수익 15% 지급

엔비디아 등이 중국에 칩을 파는 대신, 미국 정부에 수익 15%를 나눠주는 계약을 맺었습니다. 정부와 기업이 수익을 나누는 계약은 매우 이례적입니다. 트럼프 대통령이라 이런 것이 가능하다는 평입니다.

AI타임스 news@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지