WBA 서비스 메인 화면 (사진=프렌들리AI)
WBA 서비스 메인 화면 (사진=프렌들리AI)

국내에도 사용자가 모델 성능을 평가하는 '크라우드 소싱' 방식의 벤치마크가 등장했다.

프렌들리AI(대표 전병곤)는 비전문가도 참여할 수 있는 K-언어모델 비교 실험 플랫폼, 와바(WBA)’를 공식 출시했다고 6일 밝혔다.

'월드 베스트 AI'의 준말인 WBA는 블라인드 테스트 방식으로 사용자가 언어모델을 평가할 수 있는 서비스다.

평가 순위표(리더보드)도 공개된다. 쉬운 사용법과 공정성, 재미 요소를 모두 갖춘 것이 특징이라고 설명했다.

프렌들리AI 관계자는 "LG AI연구원, 업스테이지, SKT, 네이버 등 국내 AI 기업들은 다양한 언어모델을 오픈 소스로 공개했다"라며 "하지만 개발사가 공개한 일부 벤치마크 점수만으로는 실사용 환경에서 어떤 모델이 더 뛰어난 성능을 지녔는지 비교하기 어렵다"라고 말했다.

따라서 WBA에는 사용자 중심 평가 시스템이 채택됐다는 설명이다.

사용법도 간단하다. WBA에 사용자가 원하는 질문을 입력하면 무작위로 선택된 2개의 언어모델이 즉시 답변을 제공한다.

‘논리적 응답’ 옵션을 체크하면, 추론 언어 모델 2개가 응답을 생성한다. 사용자는 두 답변 중 더 마음에 드는 답변을 선택하면 된다.

이는 2년 전부터 미국에서 인기를 끈 LMSYS의 시스템과 동일한 방식이다.

WBA 모델 평가 인터페이스 예시 (사진=프렌들리AI)
WBA 모델 평가 인터페이스 예시 (사진=프렌들리AI)

평가 대상의 모델 이름은 사용자 투표가 끝나야 공개되므로 점수 조작이 불가능하다. WBA 리더보드 순위는 이 투표 점수를 합산한 결과로 결정된다.

WBA 서비스는 홈페이지에 접속해 누구나 무료로 이용할 수 있다. 평소에 써보지 못한 다양한 모델을 경험할 수 있는 것이 강점이다.

전병곤 프렌들리AI 대표는 “한국에서 AI 언어모델 개발 경쟁이 본격화된 지금, 실제로 대중이 선택하는 진짜 고성능 AI가 무엇인지 확인해볼 기회”라고 말했다.

장세민 기자 semim99@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지