페이퍼벤치 개요도 (사진=오픈AI)
페이퍼벤치 개요도 (사진=오픈AI)

오픈AI가 인공지능(AI)의 에이전트 능력을 평가하는 새로운 벤치마크로 '머신러닝(ML) 논문 구현'을 개발했다. 이를 통해 테스트한 결과, 앤트로픽이 21%로 최고 점수를 받았다. 인간 전문가는 41.4%로, AI를 압도했다.

오픈AI는 2일(현지시간) 깃허브를 통해 AI 에이전트의 머신러닝 연구 역량을 측정하는 '페이퍼벤치(PaperBench)'를 공개했다. 페이퍼는 논문을 뜻한다.

테스트는 세계 3대 AI 학회 중 하나로 꼽히는 '국제머신러닝학회(ICML) 2024'에서 선정된 20개 논문을 대상으로 한다. 오픈AI는 논문 저자들과 상의, 이를 8316개의 과제로 세분했다.

기술 논문을 재현하기 위해서는 먼저 AI가 논문을 정확하게 이해해야 한다. 이어 필요한 코드를 작성하고, 이를 통해 실험을 진행해야 한다. 오픈 소스 모델 논문은 코드 저장소를 함께 개방하지만, 이번 테스트에서는 에이전트의 코딩 역량도 테스트하기 위해 저장소 코드 활용이 금지됐다.

평가도 대형언어모델(LLM)이 담당했다. 이를 위해 개발된 '심플저지(SimpleJudge)' 모델은 채점 정확도를 검증하기 위해 설계된 데이터셋에서 83%의 점수를 달성했다.

테스트 결과, 앤트로픽의 '클로드 3.5 소네트'가 평균 21%의 점수로 가장 높은 성능을 기록했다. 이어 오픈AI의 'o1-하이'가 13.2%를 기록했다. 

o1보다 성능이 뛰어나다는 '딥시크-R1'은 6%에 그쳤다. 구글의 '제미나이 2.0 플래시'는 3.2%에 불과했다. 

벤치마크 결과 (사진=오픈AI)
벤치마크 결과 (사진=오픈AI)

반면, 인간 ML 전문가는 48시간 동안 애를 쓴 결과 최대 41.4%의 연구 재현 성공률을 보였다.

AI는 초기 코딩과 실험 설정에서는 빠른 속도로 인간을 앞서지만, 장기적인 작업 관리와 문제 해결, 전략 수정 등에서 상당한 약점을 보였다고 전했다.

ML 연구 결과를 AI가 대신하는 것은 비교적 이른 시일 내 가능할 것으로 보이는 분야다. 지난해 1월 독일 본대학교와 옥스퍼드대학교 등이 전문 학술지에 논문을 발표한 AI 연구자 2778명을 대상으로 설문 조사를 실시한 결과에서는 앞으로 7~8년 뒤에는 인간 대체가 가능할 것으로 니티닜다.

한편, 최근 AI 능력이 빠르게 발전하며 기존 지식을 묻는 벤치마크도 실제 업무 처리 능력 평가나 학습 데이터에 포함되지 않은 추론 능력을 판단하는 쪽으로 옮겨가고 있다. 오픈AI의 페이퍼벤치가 앞으로 많이 활용될지도 관심이다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지