(사진=인텔리콘)
(사진=인텔리콘)

인텔리콘연구소(대표 임영익)는 올해 2월 국내 최초로 한국 법률에 특화된 소형언어모델(sLLM) '코알라(KOALLA)' 개발에 성공했다고 28일 밝혔다.

'코알라1.0'은 리걸테크의 다양한 응용 서비스에 적용이 가능하며, 기업이나 로펌의 대용량 문서를 기반으로 하는 생성AI(RAG) 시스템에도 장착이 된다는 설명이다. 따라서 기업의 다양한 환경과 요구에 부응하는 온프레미스 또는 설치형 방식의 법률특화 생성 AI 도입이 가능해진다고 소개했다.

코알라는 메타의 '라마 2'를 미세조정했다. 성능을 높이기 위하여 직접선호최적화(DPO)같은 기법과 학습 데이터 구성 자체를 최적화하는 데이터 재규격화(Renormalization) 기술을 개발, 추가 학습을 진행했다.

수백만개의 법률·판례·상담자료·주석자료 등을 기반으로 학습 데이터 규격화 작업을 거친 뒤 성능 향상에 도움이 되는 데이터만을 선별했다고 밝혔다.

데이터 재규격화 기법은 인텔리콘이 고안한 특허 기술로, 방대한 학습 데이터에서 성능 향상에 불필요한 데이터를 제거하는 데이터 디노이징(Data-denoizing) 기법과 실제 사용자의 행동 패턴 데이터를 융합해 리셔플링(Re-shuffling)하는 기술을 포함한다. 

사용자 데이터는 인텔리콘이 지난해 5월에 개발한 '법률GPT(LawGPT)'와 '도큐브레인'을 통해 수집한 자료이라고 설명했다.

임영익 대표는 "인텔리콘은 모델뿐만 아니라 학습 데이터 구조 자체에 좀 더 집중하는 연구를 하며 데이터 재규격화 기법을 고안하게 됐고, 소량의 데이터로 법률 특유의 성능을 극대화할 수 있다는 것을 확인했다"라며 "경량모델 블랜딩 기술을 적용, LLM에 근접하는 ‘앙상블 브레인’을 개발할 계획”이라고 말했다.

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지