황민영 셀렉트스타 부대표 (사진=셀렉트스타)
황민영 셀렉트스타 부대표 (사진=셀렉트스타)

셀렉트스타(대표 김세엽)가 국내 기업으로는 처음으로 글로벌 규모의 레드팀 챌린지 행사의 진행을 담당한다. 이를 통해 국내를 대표하는 인공지능(AI) 신뢰성 및 안전성 검증 기업으로 자리 잡겠다는 목표다.

황민영 부대표는 셀렉트스타가 오는 3월5일 스페인 바르셀로나 모바일 월드 콩그레스(MWC) 현장에서 열리는 '레드팀 챌린지'의 진행을 맡는다고 밝혔다. 

이번 행사는 MWC 주최인 세계이동통신사업자연합회(GSMA)의 글로벌 규모 레드팀 이벤트다. 국내의 LG유플러스 팀을 포함, 전 세계 200여명이 참여한다. 

레드팀 챌린지는 AI 모델의 안전성을 검증하기 위해 잠재적인 위협이나 유해한 생성물을 유도하는 방법이다. 이를 통해 데이터 편향이나 오용 가능성을 점검할 수 있다.

황민영 부대표는 "국내 행사 개최에서 얻은 노하우를 바탕으로 이번 행사에 필요한 AI 플랫폼을 개발, 문제를 출제하고 응답을 평가한다"이라고 말했다.

셀렉트스타는 지난해 4월 과학기술정보통신부가 주관한 국내 생성 AI 레드팀 챌린지에 대표 파트너로 참여, 600명 이상의 참가한 대규모 행사를 진행한 경험이 있다. 이후 일본에서 열린 글로벌AI텔코 컨퍼런스에 연사로 참여한 황민영 부대가 GSMA 아시아 태평양 지부장과 만나 레드팀 챌린지 진행 경험을 소개한 것이 이번 행사 진행의 계기가 됐다. 

황 부대표는 “올해 단발성 이벤트로 끝나는 것이 아니라, 내년부터는 레드팀 챌린지의 규모를 더 키워 진행하기로 논의했다”라고 전했다. 또 “글로벌 레드팀 챌린지로 유럽 시장에 셀렉트스타를 소개하고, 나아가 비즈니스 기회를 얻을 수 있을 것으로 기대한다”라고 밝혔다. 

MWC에 이어 3월16~21일 미국 샌프란시스코에서 열리는 GTC에도 참가하는 등 글로벌 시장에서 지속적으로 활로를 개척할 예정이다.

MWC 레드팀 챌린지 (사진=MWC)
MWC 레드팀 챌린지 (사진=MWC)

셀렉트스타는 데이터 라벨링으로 시작한 기업이다. 하지만, 몇년 전부터 사업 다각화에 나서며 다양한 비즈니스 모델을 내놓고 있다. 

특히, 레드팀 챌린지 진행에서 엿볼 수 있듯 최근에는 AI 신뢰성과 안정성 검증에 집중하고 있다.

실제로 지난 20일에는 생성 AI 서비스의 신뢰성 검증 자동화 솔루션 '다투모 이밸(DATUMO Eval)'을 출시했다. 이는 레드팀 평가 방식을 도입해 AI로 유해 답변을 유도하는 질문을 생성하고, AI의 답변을 평가해 문제가 될 수 있는 부분을 보완해 주는 솔루션이다.

특히 100만개 이상의 평가용 질문을 자동 생성하고 평가하기 때문에 기존의 평가 방식보다 효율성을 높일 수 있다는 설명이다. 이미 금융권을 포함한 다수의 기업 사용자를 확보했다고 전했다.

지난해 어린이용 챗봇 서비스 ‘모모잼’에 유해한 단어를 제거하는 세이프티 필터를 도입한 것도 같은 맥락이다. 뽀로로 등이 등장하는 아동용 챗봇 서비스는 유해한 단어나 표현을 더욱 엄격히 걸러낼 필요가 있다.

이런 이유로 모모잼은 기업들이 선호하는 서비스가 됐다. 뚜레쥬르와 모모잼 콜라보를 통해 티니핑 캐릭터 챗봇이 어린이들에게 생일 축하 메세지를 생성해 주는 이벤트에 활용된 것이 대표적이다. “기대보다 소비자 반응이 좋아서 헬로카봇 등 다른 인기 캐릭터를 활용한 케이크 이벤트도 계속 진행할 예정”이라고 덧붙였다.

AI 신뢰성 평가는 최종 소비자가 사용하는 AI 챗봇의 안전에 매우 민감한 금융 기업 등에서 수요가 크다. 특히, 이는 단순한 AI 모델의 성능 평가 이상의 노하우가 필요하다.

황 부대표는 “고객에 피해를 줄 수 있는 AI 답변을 사전에 차단하려면, AI 성능과 안전성의 기준을 정의하고 이를 확인할 수 있는 질문을 생성하는 것이 시작"이라고 말했다. 이 과정에서 핵심은 자체 평가 데이터셋을 구축하는 것인데, 이는 데이터 전문인 셀렉트스타의 주특기이기도 하다.

또, 일부 챗봇은 유해한 질문에는 답변을 회피하도록 학습했기 때문에 사용자의 모든 질문에 답하지 않아, 사용자 만족도가 떨어지는 경우가 있다. 이 경우, 유해한 답변을 단순히 피하는 것에 그치지 않고, 다른 질문으로 유도하거나 답변 수위를 조절하는 등 성능과 안전성의 균형을 맞추는 것이 중요하다는 지적이다. 

“기존 모델 최적화(LLM옵스) 솔루션에 평가 기능이 포함된 경우도 있지만, 대부분 단순 성능 평가에 집중한 것"이라며 "AI가 생성한 답변의 안전성과 성능을 동시에 평가할 수 있는 것은 셀렉트스타가 유일하다”라고 강조했다.

그리고 기술 고도화에 따라 안전성과 성능을 동시에 만족하는 것은 점점 복잡해지고 있다고 전했다. 예를 들어, 최근 출시된 대부분의 LLM 기반 앱은 검색 증강 생성(RAG)에서 멀티 에이전트 시스템으로 진화하고 있다. 다수의 에이전트를 조합하는 과정에서 어떤 부분에서 문제가 발생하는지 파악하고 해결할 수 있는 구체적인 개선안을 찾을 필요가 생겼다는 설명이다. 

이에 따라 셀렉트스타도 비즈니스 확대와 동시에 솔루션 고도화에 집중하고 있다고 밝혔다.

구체적으로 ▲AI 답변을 분석할 수 있는 ‘정밀 평가(fine-grained evaluation)’ 기능과 ▲실시간으로 AI를 평가하고 성능 향상을 위해 재학습할 수 있는 ‘실시간 평가(live evalution)’ 기능을 우선 구현하는 데 집중하고 있다. 

황 부대표는 “셀렉트스타는 AI 시장의 성장에 적응하며 그동안 다양한 비즈니스 모델을 개발해 왔다”라며 “이번 레드팀 챌린지와 AI 신뢰성 검증 솔루션 출시로 이 분야 글로벌 시장 개척에 나설 것”이라고 강조했다.

박수빈 기자 sbin08@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지