최근 인공지능(AI) 모델의 성능을 평가하는 벤치마크가 점차 다양화되고 진화하는 가운데, '회전하는 도형 안의 공'이라는 테스트가 주목받고 있다. 특히 이를 통해 테스트한 결과, 중국 딥시크의 오픈 소스 'R1' 모델이 오픈AI의 'o1-프로'보다 효율적이라는 주장이 등장했다.
테크크런치는 24일(현지시간) 천천히 회전하는 도형 안에서 튕기는 노란 공을 구현하는 벤치마크에 대해 소개했다.
이는 공이 벽과 충돌할 때 튕겨나가는 물리 현상을 파이썬 스크립트로 얼마나 정확하게 작성하고 시뮬레이션할 수 있는 지를 평가하는 테스트다.
충돌 감지 알고리즘이 중요한 이 시뮬레이션에서는 공이 도형 벽에 충돌하는 순간을 정확하게 식별해야 한다. 알고리즘이 잘못되면 공은 도형의 경계 밖으로 나가는 등 물리적으로 부정확한 결과를 만들 수 있다.
AI 스타트업 누스 리서치의 연구원인 X(트위터) 사용자 'N8 프로그램'은 "회전하는 칠각형 안에서 튕기는 공을 처음부터 끝까지 프로그래밍하는 데 약 두시간이 걸렸다"라며 "여러 좌표 시스템을 추적하고, 충돌을 어떻게 처리할지 결정하며, 코드를 견고하게 설계해야 했다"라고 설명했다.
몇몇 AI 모델들은 이 벤치마크에서 좋은 성과를 보였다. 특히, 이반 피오라반티 코어뷰HQ 창립자는 중국 딥시크의 R1 모델이 오픈AI의 o1-프로보다 월등히 더 뛰어난 성능을 보였다고 전했다.
앤트로픽의 '클로드 3.5 소네트'와 구글의 '제미나이 1.5 프로'는 물리 현상을 잘못 판단, 공이 도형을 벗어나는 결과를 초래했다는 지적도 등장했다.
또 일부 사용자들은 구글의 '제미나이 2.0 플래시 싱킹' 모델과 오픈AI의 'GPT-4o'가 한번만에 평가를 성공적으로 수행했다고 전했다.
튕기는 공과 회전하는 도형을 이용한 프로그래밍 테스트가 AI 모델의 능력을 평가하는 데는 유효할 수 있지만, AI 벤치마크로서는 충분하지 않다는 말도 나왔다.
프롬프트의 작은 변화가 결과에 큰 영향을 미칠 수 있는 등 '운'에 의존할 수 있기 때문에, AI 모델의 프로그래밍 능력을 객관적으로 판단할 수 있는 기준은 아니라는 지적이다.
반면, 이런 테스트가 주목받는 것은 그만큼 AI 모델의 성능을 테스트하는 것이 점점 어려워지고, 이에 따라 다양한 방법들이 주목받는다는 것을 의미한다.
실제로 이제는 모델 간 차이를 구별하는 것이 대다수에게는 상당히 어렵다는 지적이 많다. 이번 벤치마크가 눈길을 끄는 것은 누구나 쉽게 모델의 능력을 확인할 수 있기 때문이라는 평이다.
박찬 기자 cpark@aitimes.com
