[11월3주] 강화학습법 'DPO', 'RLHF' 대안으로 인기

롯데정보통신 'LDCC 모델', 베이스로 인기
등록 모델 440개로 가파른 증가세

업스테이지와 한국지능정보사회진흥원(NIA)이 공동으로 주최하는 '오픈 Ko-LLM 리더보드' 11월 3주 순위에서는 다수의 개발자가 '직접 선호 최적화(DPO, Direct Preference Optimization)'로 좋은 성적을 거뒀다.

DPO는 지난 5월 스탠포드대학교 연구진이 발표한 강화 학습법이다. '챗GPT'에 사용한 인간 피드백을 통한 강화 학습(RLHF)의 대안으로 꼽히는 방식이다. 인간 선호도에 맞는 결과를 도출한다는 것은 똑같지만, RLHF와는 달리 보상 모델이 필요하지 않아 인기를 얻고 있다.

실제 이번 주 1위와 2위를 차지한 이승유 사람과숲-마커AI 컨소시엄 개발자(DopeorNope)의 모델과 3위인 김원철 롯데정보통신 롯데데이터커뮤니케이션 AI 기술팀 개발자의 모델은 모두 DPO를 적용했다.

특히 이승유 개발자는 평균 52.69라는 뛰어난 성적으로 1위를 차지했다. 3위와는 1점 이상의 격차를 벌렸다. 그는 개인 SNS를 통해 "이번에 많은 고심과 전략 변경, 그리고 강화학습 방법 중 하나인 DPO를 적용해 1위를 달성했다"라고 밝혔다.

또 "DPO 방식에 중요한 것은 감독 미세조정(SFT, Supervised Fine-Tuning)을 잘해야 한다는 것"이라며 "데이터를 대량으로 쏟아붓는 대신 퀄리티 높은 데이터를 사용하고 데이터 분포를 잘 확인해야 한다"라고 강조했다.

이승유 개발자는 초반 순위에서 한규진 개발자와 마커AI 돌풍을 일으켰던 주인공으로, 잠시 순위에서 사라졌다가 이번에 새 방식으로 다시 정상을 차지했다.

LLM 차트를 운영하는 업스테이지의 박찬준 테크니컬 리더 역시 "사람이 피드백을 제공하는 RLHF 방식보다 안정적이고 효율적이라고 꼽히는 DPO 튜닝을 적용한 모델들이 상위권을 차지한 점이 가장 눈에 띈다"라고 밝혔다.

11월 1주차 순위에서 1위를 차지했던 롯데정보통신의 'LDCC/LDCC-Instruct-Llama-2-ko-13B-v1.4' 모델도 새로운 미세조정 베이스로 떠올랐다. 3주차 순위에서 이를 기반으로 한 모델이 3개나 더 10위 안에 포함됐다.

김원철 개발자는 시스템 카드를 통해 "미세조정에는 NEFTune 노이즈 임베딩을 적용했으며, 또 DPO를 사용해 성능 향상을 관찰했다"라고 밝혔다.

롯데정보통신은 2주 전 10위 안에 무려 6개의 모델을 올려놓으며 돌풍을 일으켰다. 특히 공개 데이터는 물론 자체 데이터를 활용해 '라마 2'를 미세조정했다고 밝혀 주목받았다.

이런 까닭에 이 회사의 모델은 개발자들 사이에서 새 한국어 베이스 모델로 인기를 끌고 있다. 이번 주 7~9위를 점령한 'Kaeri-Jenti'라는 개발자는 모두 이 모델을 기본으로 했다. 이 개발자는 세부 내용을 공개하지는 않았다.

롯데는 최근 그룹 차원에서 AI 사업 적용 방침을 정하고 롯데정보통신을 중심으로 도메인별 모델 개발을 추진 중인 것으로 알려졌다.

특히 국내 최대의 B2C 사업 경력을 통해 축적한 방대한 데이터를 기반으로, 사업 분야별 차별화된 전문 모델을 개발한다는 방침이다. 이번 LLM 리더 보드 도전도 이 과정 중 하나다.

박종남 롯데정보통신 AI 테크 부문장은 “언어 및 음성, 비전 AI 등 다양한 분야의 AI 개발에 최선을 다하고 있으며 이를 통해 자체 파운데이션 모델을 확보하고 비즈니스 전반에 적용하여 비즈니스 가치창출을 목표로 할 것”이라고 말했다.

한편 박찬준 업스테이지 테크니컬 리더는 "16일 기준 리더보드에는 440개 이상의 모델이 누적 제출되는 등 날로 가파른 확장세를 보이고 있다"라고 전했다.

지난 9월27일 오픈 당시 50여개, 10월 2주차 100개 돌파, 10월 4주차 180개를 기록한 데 이어 2주 만에 무려 260여개의 모델이 추가되는 놀라운 수치다.

또 미국 허깅페이스의 리더보드가 벤치마크 항목을 추가하는 양상으로, Ko-LLM 리더보드도 평가 항목을 늘일 것을 검토 중이라고 전했다.

허깅페이스는 최근 상식 추론(Winogrande), 수학적 추론(GSM8K), 자연어 이해/추론(DROP) 등을 추가, 평가 항목을 7개로 확대했다.

이주영 기자 juyoung09@aitimes.com

[11월1주] 대기업까지 Ko-LLM 경쟁 합류...롯데정보통신, 자체 데이터로 실력 과시

[10월4주] 한규진 개발자, '최초 평균 50점 돌파'...초반 최강자 등극

[10월2주] 옴니어스닷AI, 최초 1위 등극

이주영 기자 juyoung09@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기