(사진=오픈AI)
(사진=오픈AI)

오픈AI가 인간 전문가 수준의 업무를 인공지능(AI) 모델이 얼마나 수행할 수 있는지를 평가하는 새로운 벤치마크를 공개했다. 그 결과, 'GPT-5'는 물론, 앤트로픽의 첨단 모델도 인간 수준에 도달했다고 평가했다.

오픈AI는 25일(현지시간) 미국 국내총생산(GDP)에 가장 크게 기여하는 9개 산업 분야의 44개 직종을 대상으로, 인간 전문가들이 수행하는 업무와 AI가 생성한 결과물을 비교해 평가하는 새로운 벤치마크 ‘GDPval’을 출시했다.

평가 대상에는 프레젠테이션과 스프레드시트, 정책 브리핑, CAD 설계, 오디오·비디오 콘텐츠 등 다양한 결과물이 포함된다. 이 결과물들은 해당 분야 전문가들이 블라인드 방식으로 짝 비교(pairwise comparison) 평가를 통해 채점한다.

오픈AI는 첫번째 버전인 'GDPval-v0'를 통해 투자 보고서 작성, 저널리즘 기사 작성, 간호 계획 수립 등 총 1320개 과제를 마련했다. 각 과제는 평균 14년 경력을 가진 전문가들이 직접 설계하고, 최소 5차례 이상의 검증 과정을 거쳐 현실성과 전문성을 확보했다. 

주요 AI 모델과 인간 전문가의 결과물을 비교 (사진=오픈AI)
주요 AI 모델과 인간 전문가의 결과물을 비교 (사진=오픈AI)

그 결과, 오픈AI의 'GPT-5-하이'는 전문가 수준과 동일하거나 더 낫다고 평가받은 비율이 40.6%에 달했다.

앤트로픽의 '클로드 오퍼스 4.1'은 49%를 기록해 상대적으로 더 높은 점수를 얻었다. 그러나 오픈AI는 “클로드가 문서 포맷이나 슬라이드 디자인 등 시각적 표현에 강점을 보여 점수가 높게 나온 측면이 있다”라고 설명했다.

GPT-5의 성과는 15개월 전 출시된 'GPT-4o(13.7%)'의 3배에 달하는 수준이다. 오픈AI는 “성능 향상이 뚜렷한 추세”라고 밝혔다.

하지만, GDPval은 보고서와 같은 정적인 결과물을 중심으로 평가하기 때문에 실제 직업 세계의 복잡한 상호작용이나 다단계 업무 과정을 충분히 반영하지는 못한다는 평이다.

오픈AI는 앞으로 대화형 워크플로우, 컨텍스트 축적, 반복적 초안 작성 등 실제 업무에 더 가까운 평가 지표를 도입, 벤치마크를 확대하겠다고 덧붙였다.

이번 연구를 이끈 애런 채터지 오픈AI 수석 이코노미스트는 “모델이 점점 전문가 수준에 가까워지면서, 실제 종사자들은 일부 업무를 AI에 맡기고 더 가치 있는 활동에 집중할 수 있을 것”이라고 말했다.

테잘 파트와르단 평가팀 리더도 “AI 모델이 현실 업무에 적용되는 속도가 빨라지고 있다”라며 “앞으로의 발전 추세는 더 가속할 것”이라고 전망했다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지