"AI 업계의 중요한 흐름은 AI 에이전트와 도메인 특화 AI입니다. 이에 맞춰 호랑이 리더보드도 에이전트 성능은 물론, 금융과 의료, 법률 등의 산업군별 LLM의 성능을 평가할 수 있게 전문화할 계획입니다."
웨이트앤바이어스(W&B)가 인공지능(AI) 에이전트와 도메인 특화 AI의 발전에 맞춰 대형언어모델(LLM) 리더보드를 조정할 계획이라고 밝혔다.
오현우 W&B AI 엔지니어는 12일 서울 강남역 부근에서 열린 밋업 행사에서 "AI 에이전트란 AI가 목표에 맞춰 워크플로우를 스스로 찾고 여러 모델이 협업해 답을 도출할 수 있는 형태"라고 정의했다.
다음 업데이트에 새로 도입할 AI 에이전트 리더보드에는 "에이전트가 답을 도출하기까지 걸리는 비용과 지연성(Latency) 평가를 반영하겠다"고 설명했다.
그는 'AI 4대 천왕'으로 불리는 앤드류 응 스탠포드대학교 교수가 지난 1월 스노플레이크 '빌드(Build)'에서 발표한 기조연설을 인용했다. AI 에이전트는 ▲반성(reflection) ▲도구 사용(Tool Use) ▲계획(Planing) ▲다중 에이전트 협업(Multi-Agent Collaboration)이라는 4가지 주요 설계 패턴이 있다.
즉, AI 에이전트는 지시를 받으면 LLM이 코드를 생성하고 이를 비판하는 과정을 거쳐 성능을 개선한다. 도구를 사용해 API 호출 요청을 생성하도록 프롬프트를 제공하며, 복잡한 요청을 처리하기 위한 연속적인 행동을 계획하고 수행한다. 또 여러 에이전트들이 순서에 맞게 다른 시점에서 다른 역할을 하도록 조정해야 비로소 스스로 작업을 수행하는 자율 에이전트가 된다는 설명이다.
이 과정에서는 처리해야 할 데이터와 토큰이 많아질 수 밖에 없다. 이는 비용 증가와 작업 시간 지연으로 이어진다. 오현우 엔지니어는 "결국 지나치게 많은 비용이 발생하거나 답이 너무 느리게 도출되면 AI 에이전트의 시장성이 떨어질 수밖에 없다"라며 "성능과 비용의 적절한 균형을 찾는 것이 관건이자 AI 성능의 판단 기준"이라고 설명했다.
또 음악 스트리밍 차트를 장르별로 구분하듯, 의료 AI와 금융 AI, 법률 AI 등으로 리더보드를 세분화해 모델 성능을 비교하겠다고 말했다.
"도메인마다 리더보드를 만들기 위해서는 전문 데이터셋을 구축하는 게 과제"라며 "병원이나 로펌, 금융 기관 등의 협업을 환영한다"라고 전했다.
한편, 오현우 엔지니어는 뷰노와 네이버를 거쳐 올해 8월 W&B에 합류했다.
10월31일 출시한 호랑이 리더보드의 업데이트를 총괄했다. '안전성'과 '사회적 편향 감소'에 초점을 맞춰 "LLM이 실제 사람처럼 답하지만, 더 안전하게 답할 수 있는지에 집중했다"라고 말했다.
그는 "사실 '호랑이'를 영어로 발음하기 어려워 이름부터 바꾸고 싶었다"라며 "국내에 호랑이 리더보드의 인지도가 높았던 탓에 바꿀 수 없었다"라고 말했다.
LLM 한국어 성능을 평가해 비교하는 호랑이 리더보드는 지난 4월 출시 직후부터 업계 관계자 사이에서 공신력 있는 리더보드로 떠올랐다. 다각적인 모델 평가 프레임워크를 제공한 것은 물론, 사용이 쉽고 프라이빗 평가도 가능했기 때문이다.
오 엔지니어는 "객관적이고 공정하게 AI 모델의 성능 평가를 하는 리더보드는 산업 발전에 중요한 역할을 한다"라며 AI 에이전트들의 성능 평가 리더보드도 에이전트의 발전을 가져올 것으로 내다봤다.
또 새로 공개한 W&B의 LLM옵스 플랫폼 '위브(Weave)'를 사용하면 "멀티 에이전트를 개발할 때 모델들이 상호작용을 하고 의사결정 내리는 과정을 쉽게 확인할 수 있다"라고 소개했다.
위브는 생성 AI 애플리케이션을 개발할 때 빠르게 프로토타입을 만들고 성능을 평가할 수 있게 도와주는 도구다. 기존의 ML옵스 플랫폼인 '모델스(Models)'에 비해 LLM이나 멀티모달모델(LMM)을 기반으로 만든 AI 솔루션의 성능을 평가하는 데 특화됐다는 설명이다.
"현재 생성 AI 애플리케이션을 사용할 때 인풋 데이터와 아웃풋 사이에서 AI가 어떤 상호작용을 거치는지 파악할 수 없는 '블랙박스'가 문제"라며 "AI 애플리케이션에 사용하는 여러 모델들의 개별 판단 기준과 설명 가능성을 찾아내는 것이 중요하다"라고 말했다.
이때 위브를 사용하면 성능평가와 데이터의 입출력, 지연성, 비용 등을 쉽게 평가하고 관리할 수 있다고 전했다. 위브는 캔바(Canva)를 비롯한 글로벌 기업에서 AI 엔지니어와 소프트웨어 개발자들이 사용하고 있다.
한편, 이날 열린 밋업 행사에서는 조현직 LG AI연구원 리더와 조재경 SK텔레콤 AI 엔지니어도 연사로 등장, '엑사원 3.5(EXAONE)' 개발 과정과 LLM 성능 고도화 방법론을 공개했다.
박수빈 기자 sbin08@aitimes.com
- W&B, 생성 AI 앱 개발도구 '위브'에 신규 기능 추가
- W&B, '호랑이 리더보드' 대규모 업데이트...엑사원·솔라 두각
- W&B, AI 개발 임원급 참석하는 VIP '라운드테이블' 개최
- [신년사] 시바타 아키라 W&B 지사장 "위브 국내 사용자 확대에 집중"
- LG CNS-W&B, GTC서 AI 에이전트 개발 협력 발표
- 배성수 KAIST 박사과정 "AI 벤치마크, 지식 평가에서 목적형으로 변해야"
- W&B, 생성 AI 개발 도구에 오픈AI ’에이전트 SDK‘ 통합..."에이전트 워크플로우 관리 가능"
- W&B, '호랑이 리더보드' 이어 금융 특화 ‘황소 리더보드’ 공개
