대형언어모델(LLM)의 환각을 줄이기 위해 필수 기술이 된 검색 증강 생성(RAG) 대신, 장기 컨텍스트와 캐싱 기술을 활용해 중요 정보를 통째로 프롬프트하는 것이 효과적이라는 주장이 나왔다.
대만 국립 정치대학교 연구진은 최근 온라인 아카이브를 통해 'RAG를 하지 마세요: 지식 작업에 캐시 증강 생성만 필요한 경우'라는 논문을 게재했다.
연구진은 "RAG는 외부 지식 소스를 통합해 LLM을 개선하는 강력한 접근 방식으로 주목을 받고 있지만, 검색 지연과 문서 선택 오류 가능성, 시스템 복잡성 증가와 같은 문제를 만든다"라며 "우리는 LLM의 컨텍스트 창이 대폭 확장되는 것에 맞춰 실시간 검색을 피하는 대안 패러다임 '캐시 증강 생성(CAG)'을 제안한다"라고 밝혔다.
즉, 긴 컨텍스트 LLM과 캐싱 기술을 사용하면 RAG 파이프라인보다 성능이 뛰어난 맞춤형 애플리케이션을 만들 수 있다는 말이다. CAG(Cache-Augmented Generation)라고 하는 이 방식은 전체 문서를 프롬프트에 직접 입력, 모델이 별도의 검색 없이 정확도를 높이는 방식이다.
실제 최근 모델은 컨텍스트 창이 몇개월 전에 비해 엄청난 크기로 확장되고 있다. 지난해 하반기부터는 어지간한 모델의 컨텍스트 창이 12만8000토큰에 맞춰졌으며, 구글은 '제미나이 1.5 프로'의 컨텍스트 창을 200만 토큰으로 확장했다. 특히 지난 15일 중국 미니맥스가 공개한 '텍스트-01' 모델은 추론 시 최대 400만 토큰을 처리할 수 있다.
그러나 무턱대고 프롬프트에 문서를 투입하면 세가지 문제가 생긴다고 지적했다.
먼저, 긴 프롬프트는 모델을 느리게 하고 추론 비용을 증가시킨다. 또 LLM 컨텍스트 창의 길이에 따라 입력할 수 있는 문서 수에 제한이 가해진다. 마지막으로, 프롬프트에 관련 없는 정보를 추가하면 모델이 혼란스러워지고 답변의 질이 떨어질 수 있다. 따라서 마구잡이로 문서를 입력하면 모델의 성능이 저하될 수 있다는 말로, 입력 문서를 걸러내는 별도 작업이 필요하다는 말이다.
따라서 CAG는 이런 문제를 해결하기 위해 3가지 접근 방식을 활용했다고 밝혔다.
첫째, 고급 캐싱 기술로 인해 프롬프트 템플릿을 처리하는 것이 더 빠르고 저렴해졌다는 점이다. CAG는 문서 요청을 받으면 토큰의 어텐션 값을 미리 계산할 수 있다. 따라서 사용자 요청을 처리하는 데 걸리는 시간을 줄일 수 있다.
오픈AI나 앤트로픽, 구글 등은 반복적인 프롬프트에 대한 캐싱 기능을 제공한다. 특히 앤트러픽 모델은 프롬프트 캐싱으로 추론 비용을 최대 90%, 대기 시간을 85%까지 줄일 수 있다. 오픈 소스에서도 최근에는 비슷한 기술을 도입하고 있다.
두번째로, 상기한 대로 최근 LLM이 더 커진 컨텍스트 창을 잇달아 도입한다는 점이다.
마지막으로, 최근 모델 학습 개선과 관련 벤치마크의 등장으로 긴 시퀀스에서 LLM의 성능을 향상하는 것이 쉬워졌다는 것이다.
따라서 앞으로 발전된 새 모델이 등장할수록, RAG보다 CAG의 활용성이 더 커질 것이라는 설명이다.
연구진은 "이런 추세는 CAG의 유용성을 크게 확장, 더 복잡하고 다양한 애플리케이션을 처리할 수 있게 해줄 것"이라며 "이 방법은 차세대 LLM의 역량 확장을 활용한 좋은 솔루션이 될 것"이라고 설명했다.
또 RAG와 CAG를 비교하기 위한 벤치마크도 실시했다. 단일 문서에서 맥락 인식 Q&A에 초점을 맞춘 'SQuAD'와 여러 문서에서 멀티 추론 능력을 테스트하는 'HotPotQA'에서 12만8000 토큰 컨텍스트 창이 있는 '라마 3.1 8B'를 사용했다.
RAG의 경우, LLM에 BM25 알고리즘과 오픈AI 임베딩 등 두가지 검색 시스템을 결합했다. CAG는 벤치마크 문서를 프롬프트에 직접 입력했다.
그 결과 CAG가 대부분 상황에서 두가지 RAG 시스템보다 성능이 우수하다는 것을 발견했다고 밝혔다.
연구진은 "테스트셋에서 전체 맥락을 미리 로드, CAG는 검색 오류를 제거하고 관련 정보에 대한 전체적인 추론을 보장했다"라며 "RAG 시스템이 불완전하거나 관련성이 없는 구절을 검색해 최적이 아닌 답변 생성으로 이어질 수 있는 경우, CAG의 장점은 더 두드러진다"라고 강조했다. 또 입력 텍스트가 많을수록, 답변 생성 시간이 크게 줄었다고 덧붙였다.
물론, CAG는 만병통치약이 아니며 신중하게 사용해야 한다고 밝혔다. 입력해야 할 문서 크기를 컨텍스트 창 크기에 적합하게 맞춰야 하며, 입력 문서 내용을 자주 변경하는 경우에는 문제가 된다. 또 기업 문서에는 상충하는 사실들이 자주 포함되는데, 이 경우에도 모델을 혼란스럽게 할 수 있다는 지적이다.
따라서 CAG가 기업에 적합한지는 몇가지 실험을 통해 확인할 필요가 있다고 전했다. 물론, CAG 구현은 매우 쉽기 때문에 개발 집약적 RAG에 투자하기 전에 첫번째 단계로 고려할 만하다고 강조했다.
한편, 구글 역시 16일 긴 문맥 처리 비용을 줄이는 아키텍처 '타이탄'을 공개하고, 이를 통해 RAG 대신 대규모 문서를 프롬프트에 바로 추가하는 것이 효율적이라고 발표했다. 이처럼 RAG보다 더 효율적이고 저렴한 대안을 찾으려는 시도가 계속될 것으로 보인다.
임대준 기자 ydj@aitimes.com
- 구글, 긴 문맥 처리 비용 줄이는 아키텍처 공개..."대규모 정보 입력으로 RAG보다 유용"
- 실시간 지식 업데이트 가능한 '그래프RAG' 모델 출시..."데이터 학습보다 실시간 데이터가 중요"
- 미니맥스, 역대 최대 컨텍스트창 갖춘 오픈 소스 모델 공개..."AI 에이전트에 특화"
- 장문 글쓰기에 적합한 RAG 보완 방식 등장..."인간처럼 반복해서 지식 심화"
- RAG 강화하는 추론 체인 통합 메커니즘 '서치-o1' 등장
- 진화하는 '검색 증강 생성'...대표적인 9가지 RAG 유형
- 구글, 프롬프트 반복 비용 줄여주는 '암시적 캐싱' API 요금제 도입
- 구글, RAG 성능 향상 위한 ‘충분한 컨텍스트’ 개념 제안
- 미니맥스, 100만 토큰까지 추론 가능한 ‘미니맥스-M1’ 오픈 소스 공개
- 구글, 제미나이 API에 엔지니어링 부담 없는 RAG 시스템 ‘파일 서치’ 공개
