MIT가 지난 6월 공개해 화제가 된 대형언어모델(LLM) '자체 개선' 기술의 코드가 오픈 소스로 공개됐다. 이에 따라 커뮤니티에서는 뜨거운 반응이 등장하고 있는데, 논문 저자 중 일부는 오픈AI에 합류한 것으로 알려졌다.
MIT 임프로버블 AI 랩(Improbable AI Lab) 연구진은 지난달 대형언어모델(LLM)에 자가 학습 능력을 부여하는 프레임워크 ‘SEAL(Self-Adapting Language Models)’ 논문을 업데이트하고, 깃허브를 통해 코드를 오픈 소스로 공개했다.
이는 지난 6월 공개한 논문의 내용의 내용을 확장한 것이다. SEAL은 LLM이 자율적으로 미세조정 전략을 생성하고 적용할 수 있도록 한다. 외부 데이터와 인간의 파이프라인에 의존해 미세조정됐던 이제까지의 모델과 달리, SEAL은 자체적인 합성 데이터와 최적화 지침을 생성하여 모델이 '진화'할 수 있도록 하는 획기적인 방법이다. 이 연구는 '뉴립스(NeurIPS 2025)'에 발표됐다.
‘자기 수정(self-edit)’이라 불리는 자연어 명령 생성이 핵심이다. 모델이 새로운 문서를 접하면, 자기 학습에 최적화된 형태로 재구성하고 학습률 같은 하이퍼파라미터까지 지정하는 등 자체적으로 미세조정 지침을 만든다는 내용이다.
이번 논문 업데이트를 통해 더 발전한 내용이 포함됐다. 새로운 버전은 SEAL의 능력이 모델 크기에 따라 확장된다는 것을 보여줬다.
이에 따라 이전 프레임워크를 확장하고, 학습 방식을 효과적으로 통합해 망각 현상을 줄였다. 즉, 임시 가중치 업데이트를 담당하는 지도 학습 미세조정(SFT, 내부 루프) 기능과 평가 보상을 담당하는 강화 학습(RL, 외부 루프)를 업그레이드했다.
또 다양한 프롬프트 형식에 대한 평가, 학습 중 안정성 향상, 실제적인 배포 과정 유의점 등을 추가했다.
앞선 테스트에서 SEAL은 '지식 내재화(knowledge incorporation)'와 '퓨샷 러닝(few-shot learning)' 두가지 주요 영역에서 놀라운 성능을 보였다.
지식 내재화는 모델이 추가된 사실을 얼마나 잘 반영하는 지를 테스트하는 것으로, SEAL을 적용한 '라마 3.2-1B'는 응답 정확도 47%로 기존 미세조정의 33.5%를 능가했다. 새로운 추론 과제에 적응하기 위해 데이터 증강과 훈련 하이퍼파라미터를 자율적으로 선택하는 퓨샷 러닝에서도 20%에서 72.5%로 급등했다.
이런 내용이 퍼져나가며, 커뮤니티에서는 일부 연구자들이 "동결된 LLM의 시대를 끝내고, 살아 움직이는 LLM의 시대가 왔다"라고 극찬했다.
AI 마케팅 스타트업 공동 창립자로 알려진 알렉스 프롬프터(alex_prompter)라는 X(트 위터) 사용자는 "MIT가 스스로 코드를 재작성해 더 똑똑해지는 AI를 개발했다"라며 "자신을 미세조정하는 LLM은 더 이상 SF가 아니다"라는 밝혔다.
또, 교육자이자 AI 애호가라고 자신을 소개한 사용자 VraserX라는 사용자는 "SEAL 연구원 중 일부는 현재 오픈AI에서 일하고 있다"라며 "GPT-6는 더 똑똑할 뿐만 아니라 살아있을 수도 있다"라고 전했다. 또 "이는 우연이 아니다"라며 "지속적인 자체 학습 AI의 탄생, 동결된 가중치 시대의 종말이 될 수 있다"라고 강조했다.
GPT-6 may not just be smarter, it might be alive (in the computational sense).
— VraserX e/acc (@VraserX) October 12, 2025
A new research paper called SEAL, Self-Adapting Language Models (arXiv:2506.10943) describes how an AI can continuously learn after deployment, evolving its own internal representations without… pic.twitter.com/uV40mywFiP
이번 업데이트 중에는 모델 크기가 커질수록 SEAL의 적응 능력도 향상된다는 실험이 포함됐다. 연구진은 "학생들이 시간이 지남에 따라 학습 기법이 향상되는 것과 비슷하다"라고 밝혔다. 즉, 더 큰 모델이 더 유용한 자체 수정을 생성할 수 있다는 설명이다.
아직 해결하지 못한 문제도 있다. 대표적인 것이 미세조정 중 기존에 학습 내용을 잊는 '치명적 망각(Catastrophic Forgetting)' 문제다. 이에 대해 연구진은 RL이 SFT보다 망각을 더 효과적으로 완화하는 것으로 보인다고 밝혔다.
논문 공동 저자인 조 파리는 벤처비트와의 인터뷰에서 "SEAL은 가능성을 보여주는 초기 단계"라며 "하지만 훨씬 더 많은 테스트가 필요하다"라고 말했다.
한편, 스탠포드대학교와 UC 버클리 등 연구진도 LLM의 성능을 높이기 위해 모델 가중치를 바꾸는 대신, 입력 문맥(context)을 계속 수정하고 발전하며 모델이 스스로 지식과 전략을 축적하는 'ACE(Agentic Context Engineering)’라는 프레임워크를 발표했다.
또, 오픈AI와 구글이 최근 국제수학올림피아드 등에서 좋은 성적을 올린 기술도 모델 내부에서 답을 계속 수정하고 가다듬는다는 면에서 흡사한 트렌드가 형성되고 있다는 분석이다.
임대준 기자 ydj@aitimes.com
