빅젠 벤치 관련 이미지 (사진=LG AI연구원)
빅젠 벤치 관련 이미지 (사진=LG AI연구원)

LG AI연구원(원장 배경훈)은 자연어 처리(NLP) 분야 최고 학회 중 하나인 '북미 전산언어 학회(NAACL) 2025'에서 ‘최고 논문상’을 수상했다고 30일 밝혔다.

지난해 'NAACL 2024'에서 '인공지능(AI) 모델의 문화적 편견에 관한 분석을 통한 AI 시스템의 안정성 및 공정성-을 주제로 하는 연구 논문이 ‘소셜 임팩트상’을 받은 데 이어, 올해는 최고논문상을 수상하게 됐다고 전했다.

이번 논문은 생성 AI 모델 성능을 평가하는 벤치마크 ‘빅젠 벤치(BIGGEN BENCH)’를 새로 개발했다는 내용이다. 논문 1 저자인 김승원 카네기멜론대 박사과정 연구생은 LG AI연구원 초지능랩의 인턴 과정 중 이문태 초지능랩장, 이경재 데이터 스쿼드리더, 서민준 한국과학기술원(KAIST) 교수 연구팀과 빅젠 벤치를 개발했다.

기존 생성 AI 모델 평가 방식은 ‘유용성’ ‘무해성’과 같은 추상적인 개념 지표에 의존하고 있어 사람이 평가했을 때의 결과와 차이가 발생하고, 특히 AI 모델이 보유하고 있는 세부 역량에 대한 측정이 어렵다는 한계가 있었다.

이를 해결하기 위해 빅젠 벤치는 ▲지시사항 수행 ▲논리적 추론 ▲도구 사용 능력 ▲안전성 ▲다양한 언어와 문화적 맥락 이해 능력 등 핵심 역량을 9가지로 분류, 77개의 세부 역할 수행 능력을 평가하는 765개 항목으로 구성됐다.

사람의 평가와 유사한 결과를 도출하기 위해, 주변의 다양한 상황과 주관적 요소를 고려하는 사람의 평가 방식을 모방한 것이라는 설명이다.

빅젠 벤치로 103개의 AI 모델을 평가한 결과, 전문가 집단과의 교차 검증에서 높은 수준의 신뢰도와 타당도를 보여 새로운 벤치마크로의 가능성을 확인했다고 강조했다.

또 평가자 역할을 하는 AI 모델 5개 중 하나인 '프로메테우스-2(Prometheus-2)'는 오픈 소스로 공개했다.

LG AI연구원은 빅젠 벤치를 기반으로 생성 AI 모델 개발 과정에서 세부 항목별 성능을 자동으로 평가하는 후속 연구도 진행 중이라고 전했다.

한편, LG AI연구원이 2020년 12월 출범한 이후 NAACL을 비롯해 뉴립스(NeurIPS), AAAI, CVPR, ICML, ACL 등 AI 글로벌 학회에서 발표한 논문은 234편에 이른다.

이문태 LG AI연구원 초지능랩장은 “빅젠 벤치는 생성 AI의 다양한 능력을 객관적이고 종합적으로 평가할 수 있도록 설계됐으며, 기존 벤치마크의 한계를 극복하고 인간의 정교한 평가기준에 부합해 AI 모델의 능력을 파악할 수 있다는 장점이 있다”라고 말했다.

앞서 LG AI연구원은 파운데이션 모델 '엑사원'으로 허깅페이스 리더보드 엣지 부분 1위를 차지하고 에포크 AI의 '주목할 만한 모델'에 선정된 바 있다. 또 지난 2월에는 데이터셋 저작권 문제를 에이전트 '넥서스' 출시로 주목받았다.

이어, 벤치마크까지 성과를 확장하는 등 다각도의 AI 연구 개발에 나서고 있다. 

장세민 기자 semim99@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지