(사진=X, Ivan Fioravanti)
(사진=X, Ivan Fioravanti)

최근 인공지능(AI) 모델의 성능을 평가하는 벤치마크가 점차 다양화되고 진화하는 가운데, '회전하는 도형 안의 공'이라는 테스트가 주목받고 있다. 특히 이를 통해 테스트한 결과, 중국 딥시크의 오픈 소스 'R1' 모델이 오픈AI의 'o1-프로'보다 효율적이라는 주장이 등장했다.

테크크런치는 24일(현지시간) 천천히 회전하는 도형 안에서 튕기는 노란 공을 구현하는 벤치마크에 대해 소개했다.

이는 공이 벽과 충돌할 때 튕겨나가는 물리 현상을 파이썬 스크립트로 얼마나 정확하게 작성하고 시뮬레이션할 수 있는 지를 평가하는 테스트다.

충돌 감지 알고리즘이 중요한 이 시뮬레이션에서는 공이 도형 벽에 충돌하는 순간을 정확하게 식별해야 한다. 알고리즘이 잘못되면 공은 도형의 경계 밖으로 나가는 등 물리적으로 부정확한 결과를 만들 수 있다.

AI 스타트업 누스 리서치의 연구원인 X(트위터) 사용자 'N8 프로그램'은 "회전하는 칠각형 안에서 튕기는 공을 처음부터 끝까지 프로그래밍하는 데 약 두시간이 걸렸다"라며 "여러 좌표 시스템을 추적하고, 충돌을 어떻게 처리할지 결정하며, 코드를 견고하게 설계해야 했다"라고 설명했다.

몇몇 AI 모델들은 이 벤치마크에서 좋은 성과를 보였다. 특히, 이반 피오라반티 코어뷰HQ 창립자는 중국 딥시크의 R1 모델이 오픈AI의 o1-프로보다 월등히 더 뛰어난 성능을 보였다고 전했다.

앤트로픽의 '클로드 3.5 소네트'와 구글의 '제미나이 1.5 프로'는 물리 현상을 잘못 판단, 공이 도형을 벗어나는 결과를 초래했다는 지적도 등장했다.

또 일부 사용자들은 구글의 '제미나이 2.0 플래시 싱킹' 모델과 오픈AI의 'GPT-4o'가 한번만에 평가를 성공적으로 수행했다고 전했다.

튕기는 공과 회전하는 도형을 이용한 프로그래밍 테스트가 AI 모델의 능력을 평가하는 데는 유효할 수 있지만, AI 벤치마크로서는 충분하지 않다는 말도 나왔다.

프롬프트의 작은 변화가 결과에 큰 영향을 미칠 수 있는 등 '운'에 의존할 수 있기 때문에, AI 모델의 프로그래밍 능력을 객관적으로 판단할 수 있는 기준은 아니라는 지적이다.

반면, 이런 테스트가 주목받는 것은 그만큼 AI  모델의 성능을 테스트하는 것이 점점 어려워지고, 이에 따라 다양한 방법들이 주목받는다는 것을 의미한다.

실제로 이제는 모델 간 차이를 구별하는 것이 대다수에게는 상당히 어렵다는 지적이 많다. 이번 벤치마크가 눈길을 끄는 것은 누구나 쉽게 모델의 능력을 확인할 수 있기 때문이라는 평이다. 

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지