(사진=셔터스톡)
(사진=셔터스톡)

오픈AI의 'o3' 모델이 인공일반지능(AGI)에 가까워졌다는 결과를 내놓은 ‘ARC-AGI 벤치마크’의 ARC 프라이즈 파운데이션이 새로운 벤치마크 개발에 착수했다.

비영리 단체인 ARC 프라이즈 파운데이션은 8일(현지시간) AGI 벤치마크를 업그레이드할 계획을 발표했다. 

ARC 프라이즈 파운데이션은 구글의 전 엔지니어이자 인공지능(AI) 분야의 주요 연구자인 프랑수아 숄레가 인간 수준의 지능을 평가할 수 있는 벤치마크를 개발하기 위해 설립했다. 세일즈포스에서 엔지니어링 디렉터로 활동했던 그렉 캄라트가 회장 겸 이사회 멤버로 회사를 이끌고 있다. 이들은 1월 말부터 기금 모금을 시작할 예정이다.

숄레 창립자는 테크크런치와 인터뷰에서 "우리의 목표는 AGI로 향하는 중요한 이정표를 제시하는 비영리 단체로 성장하는 것"이라며 "인간과 AI 간 능력 격차를 줄이는 데 중점을 둔다"라고 설명했다.

ARC 프라이즈 파운데이션이 준비 중인 벤치마크는 숄레 창립자가 개발한 ARC-AGI 테스트를 기반으로 한다. 이 테스트는 다양한 색상의 사각형을 활용해 정답 격자를 만드는 퍼즐 형식으로, AI가 기존 데이터에 의존하지 않고 새로운 문제를 얼마나 잘 해결할 수 있는지를 평가한다. 그는 이 벤치마크가 AI의 성능을 객관적으로 측정하는 도구로 자리 잡을 것이라고 강조했다.

2019년 처음 공개된 ARC-AGI는 수학 올림피아드나 박사 수준의 문제를 해결하는 AI도 쉽게 풀지 못하는 테스트로, 당시 가장 높은 점수를 기록한 AI조차 전체 문제의 3분의 1도 해결하지 못했다. 

하지만 그는 "대부분의 AI 벤치마크가 초인간적인 문제를 통해 AI의 위험성을 평가하려 하지만, 우리는 그런 방식을 택하지 않는다"라며, 향후 ARC-AGI의 새 버전은 인간과 AI 간의 능력 격차를 줄이는 데 초점을 맞출 것이라고 밝혔다.

특히 ARC-AGI에서 o3가 처음으로 인간 수준에 도달한 결과를 낸 것에 대해서도 비판이 등장했다. 일부는 ARC-AGI 데이터로 o3가 훈련됐으며, 대규모 계산 능력에 의존한 결과일 뿐이라고 지적했다.

숄레 창립자도 이를 의식한 듯 "향후 발표될 ARC-AGI의 새 버전은 o3 모델에게 더 큰 도전이 될 것"이라며 "AGI의 도달 여부를 판단할 기준은 AI보다 인간에게 더 쉬운 문제를 만드는 것이 불가능해지는 시점"이라고 설명했다.

ARC 프라이즈 파운데이션은 올해 1분기 안에 2세대 ARC-AGI 벤치마크를 공개할 예정이다. 동시에 3세대 벤치마크 설계에 착수하고, AGI 발전을 가속하기 위해 ‘학술 네트워크’ 및 ‘AI 연구소 파트너십 연합’을 구축할 계획이다.

이미 AGI가 등장했다는 오픈AI의 주장이 이어지는 가운데, 새로운 벤치마크가 구글이나 앤트로픽, xAI 등의 첨단 모델 성능 입증에 적극 활용될지가 주목된다. 하지만 오픈AI는 앞으로도 ARC-AGI 팀과 협력해 벤치마크를 발전시킬 계획이라고 밝힌 바 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지