(사진=셔터스톡)
(사진=셔터스톡)

오픈AI나 앤트로픽과 같은 주요 인공지능(AI) 개발 업체들이 대규모 '강화 학습 환경(RL environments)' 구축에 나섰다는 소식이 잇달아 전해지고 있습니다. 이를 'RL 체육관(RL Gym)'이라고도 부릅니다.

며칠 전부터 이 단어들이 조금씩 등장하더니, 16일(현지시간)에는 디 인포메이션과 테크크런치가 나란히 이를 소개했습니다. 

첨단 AI 기업들이 더 많은 RL 체육관을 요구하고 있으며, 이를 공급하고자 하는 스타트업이 속속 등장한다는 내용입니다.

제니퍼 리 앤드리슨 호로비츠 제너럴 파트너는 "모든 주요 AI 연구소는 자체적으로 RL 환경을 구축하고 있다"라며 "하지만 이런 데이터셋을 구축하는 것은 매우 복잡하기 때문에 고품질 환경과 평가를 구축할 수 있는 외부 업체를 찾고 있다. 모두가 이 분야에 주목하고 있다"라고 말했습니다.

RL 환경이나 RL 체육관이라는 새로운 용어는 아닙니다. RL 자체가 이미 대형언어모델(LLM) 등장 이전부터 존재해 왔습니다. 예를 들어, 딥마인드가 알파고를 개발하기 위해 사용한 것이 RL이었습니다. 

또 데미스 허사비스 딥마인드 CEO는 이에 앞서 아타리 게임을 실행하는 모델을 만들기 위해 이미 2010년대 초반부터 RL을 활용했다고 밝혔습니다. 오픈AI가 2017년 내놓은 RL 알고리즘 비교 오픈 소스 도구 이름도 '오픈AI 체육관(OpenAI Gym)'이었습니다.

RL의 원리는 간단합니다. 특정 환경에서 AI가 행동을 취하고 그 결과로 보상이나 처벌을 받으며, 보상을 최대화하는 쪽으로 정책을 학습하는 방식입니다. 정답을 주지 않지만, AI의 결정이 옳은 것인지 잘못된 것인지 피드백을 통해 다음 결정에서는 긍정적 보상을 받을 수 있는 방향으로 결정하도록 학습하는 것입니다. 이는 정해진 정답이 없거나 수많은 변수가 존재하는 바둑이나 체스, 게임 등의 플레이 방법을 배우는 데 효과적입니다.

최근 로봇 학습에도 많이 사용됩니다. 현실 세계에는 데이터 학습만으로 해결할 수 없는 많은 경우가 존재하기 때문에, RL을 통해 모델이 스스로 보상을 받을 수 있는 최적의 행동을 찾도록 하는 것이 일반적입니다. 실제로 아마존은 얼마 전 로봇 AI를 개발하기 위해 실제 배송 환경과 비슷한 '휴머노이드 파크'를 꾸리고, 여기에서 로봇이 임무를 수행하며 현실 적응을 돕도록 했습니다. 이 역시 RL 체육관으로 부를 수 있습니다. 

그리고 RL은 지난해 오픈AI가 추론 모델 'o1'을 개발하는 데 중요한 역할을 했다는 것이 알려지며, LLM의 성능을 높이는 핵심 기술로 자리 잡게 됐습니다.

특히, 최근에는 AI 에이전트를 개발하는 데 핵심으로 꼽히고 있습니다. 에이전트는 단순히 답을 내놓는 것이 아니라, 인간 지시가 주어지면 이를 분석해 계획을 짜고 이에 따라 행동화하며 실제 상황에서 생기는 시행착오를 통해 행동을 수정해야 하기 때문입니다. 로봇이 현실 세계에 부딪히며 목표 달성을 위한 최적의 행동을 익히는 것과 흡사한 구조입니다.   

에이전트도 실제 기업의 업무 환경에서 다양한 데이터와 도구를 사용해 목적을 달성하려면, 시행착오는 불가피합니다. 각 회사의 업무 환경과 시스템, 사용 도구 등은 모두 다르기 때문입니다.

이처럼 RL 체육관이 왜 중요한 요소로 떠오르는지 이해할만 합니다. 

그리고 이런 가상의 환경을 구축하는 것은 쉽지 않은 일이라고 합니다. 이 훈련은 이전에 시도했던 어떤 AI 훈련과도 다릅니다. 

현실과 흡사한 대규모의 가상 환경을 구축해야 합니다. 여기에는 기업의 데이터 저장소와 현실처럼 작동하는 가상의 애플리케이션이 포함됩니다. 또 생물학이나 프로그래밍, 의학 등 산업별로 환경을 구축하기 위해서는 다양한 분야의 전문가도 필요합니다. 일반적인 AI 훈련처럼 데이터와 컴퓨팅만 있으면 되는 일이 아닙니다.

예를 들어, 에이전트가 잠재 고객을 검색해 찾아내고 유망한 대상을 식별해 미팅을 예약하기 위한 이메일을 보내려면 링크드인과 같은 소셜 앱과 달력 앱, 지메일 앱 등의 사용법을 모두 배워야 한다는 것입니다.

(사진=셔터스톡)
(사진=셔터스톡)

구글과 앤트로픽의 모델 개선을 돕는 튜링(Turing)이라는 업체는 이런 작업을 위해 에어비앤비나 젠데스크, 엑셀 등을 모방한 1000개 이상의 RL 체육관을 구축했다고 밝혔습니다. 이런 RL 환경과 동시에 AI가 각 시뮬레이션 앱에서 시도해 볼 수 있는 100~500개의 샘플 작업, 모델이 작업을 올바르게 완료했는지 확인하는 방법도 필요하다는 것입니다.

전문가들에 들어가는 비용도 만만치 않은 것으로 알려졌습니다. 오픈AI에 전문가를 소개하는 라벨박스(Labelbox)에 따르면, 전문 계약직 상위 10%는 시급이 120달러(약 16만5000원) 이상으로 알려졌습니다. 또 수요 증가로 1년 내 두배까지 상승할 것으로 내다봤습니다.

아직 이 분야는 초기지만, 주요 AI 기업의 투자 의자는 강하다고 합니다.

한 관계자에 따르면 앤트로픽은 내년에 RL 훈련장 구축을 위해 10억달러(약 1조3800억원)를 투자할 것으로 알려졌습니다. 오픈AI가 올해 지출할 데이터 관련 비용 10억달러에는 이미 RL 훈련장 비용이 포함된 것으로 전해졌으며, 2030년에는 80억달러(약 11조450억원)까지 늘어날 것으로 전망했습니다.

수요 증가에 따라 최근 몇달 간 튜링의 경쟁사인 스케일 AI나 서지(Surge), 머코어(Mercor) 등 기존 라벨링 전문 업체들도 RL 환경 구축을 위한 전문가 공급에 나서고 있다는 소식입니다. 또 RL 환경 구축 전문 스타트업들도 생겨나고 있습니다.

서지의 창립자인 에드윈 첸 CEO는 "오픈AI와 앤트로픽의 최근 모델 개선 방식이 인간의 학습 방식을 그대로 따라 하고 있다"라며 "RL 훈련장은 현실 세계에서 사는 것과 똑같다"라고 말했습니다.

그리고 이런 추세는 모델의 성능을 향상하기 위해 모든 것을 쥐어짜 내는 업계의 모습을 잘 반영하고 있습니다.

이미 1년 전 AI 업계는 '스케일링 법칙의 벽'에 부딪혔고, 이어 돌파구로 지목된 '테스트-타임 컴퓨팅' 즉, 추론도 한계에 도달한 것이 아니냐는 말이 나왔습니다. 이 때문에 오픈AI는 '범용 검증기(Universial Verifuer)'와 같은 새로운 기술에 매달리는 것으로 알려졌습니다.  

이런 상황에서 에이전트의 능력을 향상할 수 있는 RL 체육관은 갈수록 상향 평준화되는 프론티어 모델의 차별점을 만들어 줄 유망한 방법일 수 있습니다. 이처럼 AI 성능 향상을 위한 노력은 계속되고 있습니다.

이어 16일 주요 뉴스입니다.

(사진=구글)
(사진=구글)

'나노 바나나'도 3D 피규어 바이럴 열풍...'제미나이'는 앱 스토어 석권

챗GPT의 '지브리 스타일'에 이어, 구글의 나노 바나나도 바이럴을 타고 뛰어오를 기세입니다. #D 피규어 사진은 인기로 제미나이 사용자도 부쩍 늘었습니다. 이제 AI도 입소문이 강조되는 분위기입니다.

오픈AI, 에이전트 코딩용 'GPT-5-코덱스' 출시

GPT-5에서 코딩 성능을 강화하는 새 모델이 등장했습니다. 특히, 업무에 따라 실시간으로 연산량을 조절하는 구조로, 단순 코드 생성을 넘는 복잡한 프로젝트에 적합한 에이전트 모델이라는 설명입니다. 

구글, 1년 간 공개하지 않았던 AI 학습 데이터 '정제법' 발표

일부분의 잘못된 사실이나 민감한 정보를 걸러내고, LLM이 새로 데이터를 작성하는 AI 학습 데이터 재활용 기술이 등장했습니다. 이를 통해 데이터 고갈을 막고, 모델 성능을 크게 향상할 수 있다고 합니다.

AI타임스 news@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지