배성수 KAIST김재철AI대학원 박사과정생이 W&B 밋업행사에서 발표를 진행하고 있다.
배성수 KAIST김재철AI대학원 박사과정생이 W&B 밋업행사에서 발표를 진행하고 있다.

인공지능(AI)의 성능을 평가할 때 지식적인 평가가 아니라, 목적에 따른 맞춤형 평가 즉 '커스텀 벤치마크'가 많아질 것이라는 의견이 나왔다. 

배성수 KAIST김재철AI대학원 박사과정생은 웨이트앤바이어스(W&B)가 26일 서울 강남 위워크에 개최한 밋업 행사에서 '신뢰할 수 있는 AI를 위한 정량적/정성적 접근법'을 주제로 발표를 진행했다. 

그는 "AI가 발전하는 속도에 비해 평가하는 기술의 발전 속도는 빠르지 않다"라며 "AI 모델의 발전 속도가 빨라지면, 평가시스템도 같이 고도화돼야 한다"라고 말했다.

기존의 벤치마크는 전문 분야의 지식을 묻는 방식이었지만, AI의 용도가 세분되며 지식 평가가 한계에 도달했다는 지적이다.

이에 따라 AI 벤치마크는 최근 다변화하고 있다. AI 안전 연구자 댄 핸드릭스가 스케일 AI와 협력해 '인류의 마지막 시험(Humanity's Last Exam)'이라는 벤치마크를 만든 것이 대표적이다. 이는 AI가 인간의 지적능력에 얼마나 근접했는지 평가하기 위한 데이터셋이다.

배성수 박사과정생은 "앞으로 AI 성능을 평가하는 벤치마크는 지식 평가에서 벗어나야 할 것"이라고 말했다.

중국의 마누스AI처럼 AI 에이전트의 사례를 보여주며 사용성을 강조하거나, 특정 태스크를 완수하는지 평가할 수 있는 커스컴 벤치마크를 만들어 성능을 평가해야 한다는 것이다.

학습한 데이터를 벗어나는 테스트로 AI의 문제 해결 능력을 평가하는 벤치마크도 나왔다. 프랑수아 숄레의 아크 프라이즈 재단이 25일 발표한 벤치마크 ‘ARC-AGI-2’는 지식 평가가 아닌 사각형의 패턴을 분석하고 올바른 그리드를 생성하는 퍼즐형 문제로 구성돼 있다. 

배성수 박사과정생은 "창의적으로 접근하는 커스텀 벤치마크가 다양하게 나오는 게 필요하다"라고 강조했다. 

이날 밋업 행사에서는 정창현 롯데이노베이트 STT리서치 엔지니어가 사내 회의록 자동생성 AI 솔루션 개발 과정을 공유했다. 이어 안원빈 LG AI리서치 DI랩 스쿼드리더가 'LLM 기반 최신 시계열 예측 연구 동향 및 AI ETF 상장 사례 소개' 세션을 진행했다. 

W&B 관계자는 "매월 밋업 행사를 진행하며 다양한 AI 업계 관계자들을 초청해 세션을 진행하고 네트워킹 시간을 마련하고 있다"라며 "많은 관심과 참여를 부탁드린다"라고 말했다.   

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지