(사진=셔터스톡)
(사진=셔터스톡)

싱킹 머신즈 랩(TML)의 핵심 연구원이 현재의 확장 전략으로는 인공일반지능(AGI)에 도달하기 어렵다고 지적했다. 대신, 모델이 스스로 학습하는 능력을 갖추기 위한 근본적인 재설계가 필요하다고 밝혔다.

벤처비트에 따르면, 라파엘 라파일로프 TML 연구원은 지난주 미국 샌프란시스코에서 열린 TED AI 컨퍼런스에 연사로 출연해 AI의 '메타 학습(meta-learning)'에 대해 역설했다.

그는 먼저 오픈AI나 구글, 앤트로픽 등이 모델 크기와 데이터, 컴퓨팅을 확장하는 방식에 대한 문제를 지적했다. 부족한 것은 확장성이 아니라, 경험을 통해 실제로 학습하는 능력이라는 내용이다.

"학습은 지적인 존재가 하는 일"이며 "훈련은 지적인 존재에게 가해지는 행위"라고 말했다.

현재 유행하는 코딩 에이전트를 예로 들었다. "코딩 에이전트를 사용해서 정말 어려운 작업을 시키면, 기능 구현이나 코드 읽기, 코드 이해, 코드 추론, 구현, 반복 등에서 성공할 수도 있다"라며 "그리고 다음 날 다시 다음 기능 구현을 요청하면, 에이전트는 똑같은 작업을 할 것"이라고 전했다.

즉, 현재 시스템은 전날 경험을 내재화하지 못하는 것이 가장 큰 문제라는 것이다. "현재 사용하는 모델들에게는 매일이 첫 출근일"이라며 "하지만 지적인 존재라면 정보를 내재화할 수 있어야 한다. 적응할 수 있어야 하고, 자기 행동을 수정해 매일 더 나아지고, 더 많이 알고, 더 빨리 일할 수 있어야 한다"라고 설명했다.

이런 문제가 발생하는 이유를 '덕트 테이프(duct tape)'에 비유했다. 지식을 내재화하려면 시행착오를 통해 발전해야 하는데, 코딩에서 에러가 발생하면 당장 문제를 해결하기 위해 불확실한 코드를 'try/except' 블록으로 덮어버린다는 것이다.

"에이전트는 뭔가 잘못되었을 수도 있고, 위험할 수도 있다는 것을 알고 있다. 하지만 제한된 시간과 상호작용의 한계 속에서, 오로지 기능을 구현하고 버그를 해결하는 목표에만 집중해야 하기 때문"이라고 설명했다. 즉, "에이전트는 문제를 미루고 있다"라고 강조했다.

이처럼 현재 모델은 즉각적인 작업 완료를 위해 최적화하는 훈련을 받았으며, 목표 달성과 관련이 없는 것은 모두 '계산 낭비'로 처리한다는 것이다.

AI의 새로운 패러다임으로 부각된 RL도 마찬가지라고 전했다. "현재 추론 모델을 훈련하려면 특정한 수학 문제를 매우 어렵게 만들고, 그 문제를 풀려고 노력한 모델에 보상을 준다. 그게 전부다. 이 과정이 끝나면 모델은 해답을 제출한다. 그리고 모델이 발견한 모든 것, 즉 학습한 모든 추상화와 정리는 폐기한다. 새로운 문제를 풀도록 하면 모델은 똑같은 추상화를 반복해야 한다"라고 말했다.

그는 이런 방식은 지식 축적을 방해한다고 밝혔다. "과학이나 수학은 이런 식으로 작동하지 않는다. 우리가 추상화하는 것은 당장 문제를 해결하기 때문이 아니라, 근본적인 개념이 중요하다는 것을 이해하기 때문"이라고 설명했다.

따라서 RL의 목표도 근본적으로 바뀌어야 한다고 강조했다. "모델에게 하나의 문제를 주는 대신, 교과서 전체를 제공할 수 있다. 모델에게 첫번째 장의 첫번째 연습 문제부터 두번째, 세번째, 네 번째, 그리고 두번째 장으로 넘어가도록 지시하는 것"이라고 말했다.

"우리는 다음 패러다임, 즉 RL의 시작점에 서 있다. 모델에게 사고하는 법을 가르치는 것에서 벗어나, 범용 에이전트의 역량을 부여하는 단계로 나아가는 것"이라고 요약했다.

이런 식의 접근이 메타 러닝, 또는 '학습하는 법을 학습(learning to learn)'한다는 개념이다. 과거에는 이미지 분류를 위한 퓨샷 러닝(Few-Shot Learning) 등에 적용됐지만, 이제는 거대해진 모델의 규모와 성능에 맞춰 조정해야 한다는 것이다.

그리고 "현재 아키텍처 설계의 핵심은 상당 부분 제대로 갖춰졌지만, 적절한 데이터도 없고 목표도 제대로 설정되지 않은 것 같다"라고 밝혔다. 완전히 새로운 모델 아키텍처를 만드는 것보다 모델 훈련에 사용되는 데이터 분포와 보상 구조를 재설계하는 것이 앞으로 나아갈 길이라는 것이다.

"학습은 그 자체로 알고리즘"이라며 "어떤 구조를 통해 데이터를 처리하고, 마음에 드는 최적화 알고리즘을 선택하면, 더 강력한 모델을 만들어낼 수 있을 것"이라고 말했다.

기술적으로는 "충분한 연산 자원과 충분히 광범위한 적용 범위가 확보된다면, 대규모 학습을 통해 범용 학습 알고리즘을 개발할 수 있다고 생각한다"라고 전했다. "수학과 코드만으로 일반적인 추론을 수행하고, 잠재적으로 일반적인 영역에서 동작하도록 모델을 훈련하는 방식을 통해 다양한 애플리케이션에서 효율적으로 학습하는 방법을 가르칠 수 있을 것"이라는 설명이다.

"만약 이것이 가능하다면, 진정으로 효율적인 일반 지능을 달성하기 위한 마지막 미완성 조각"이라며 "탐험, 학습, 정보 수집, 자기 계발이라는 핵심 목표를 가진 지능을 상상해 보라. 일반 역량, 즉 외부 세계를 이해하고 탐험하는 능력과 컴퓨터를 사용하는 능력, 연구하는 능력, 로봇을 관리하고 제어하는 ​​능력을 갖춘 모델이 초지능을 구성할 것"이라고 덧붙였다.

라파엘 라파일로프 (사진=TED)

이렇게 탄생한 초지능은 SF에 나오는 모습과는 다를 것으로 봤다. "신 수준의 추론 능력이나 문제 해결 능력을 갖춘 단일 모델은 나올 수 없다고 생각한다"라는 것이다.

대신, "최초의 초지능은 초인적인 학습 능력을 갖춘 존재가 될 것으로 본다"라며 "초지능은 효율적으로 문제를 파악하고 적응하며, 자체 이론을 제시하고, 실험을 제안하고, 환경을 활용하여 이를 검증하고, 정보를 수집하고, 그 과정을 반복할 수 있을 것"이라고 밝혔다. 즉, 인간처럼 성장하는 모델이 초지능이라는 말이다.

라파일로프 연구원은 스탠포드대학교 출신으로, 구글 딥마인드와 UC 버클리에서 근무했다. 구글의 'RT-X'와 '오픈VLA' 시리즈 등 로봇 AI 논문 공동 저자이자 RL 분야 주요 논문으로 유명하다. TML에서는 첫 출시 제품인 '싱커(Tinker)'를 개발했다. 이는 오픈 소스 모델 미세조정에 초점을 맞춘 API다.

이날 그가 선보인 비전은 다른 AI 기업과는 차별화된 내용이다. 하지만, TML이 이 방식을 차세대 모델에 적용하고 있는지, 언제 모델을 출시할지는 밝히지 않았다.

미라 무라티 CEO가 이끄는 TML은 오픈AI의 주축 연구원들로 구성, 실리콘 밸리 사상 최대 규모인 20억달러의 시드 투자를 유치했다. 하지만 기업용 AI를 개발한다고 밝혔을 뿐, 다른 곳처럼 AGI에 대한 비전이나 핵심 기술을 공개하지 않았다. 이 가운데 라파일로프 연구원의 발표는 내부 연구를 엿볼 기회로 여겨지고 있다.

대신, 그는 이 방식이 "쉬운 일이 아니다. 매우 어려울 것"이라고 말했다.

"메모리, 엔지니어링, 데이터, 최적화 분야에서 많은 혁신이 필요하겠지만, 근본적으로는 가능하다고 생각한다"라고 덧붙였다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지