‘오픈 Ko-LLM 리더보드 시즌2’의 평가가 완료됐다. 5개월 만에 본격적인 순위 경쟁이 재개된 가운데, 첫 주 상위권은 해외 개발자들이 휩쓸었다.
한국지능정보사회진흥원(NIA)이 주최하는 리더보드2가 등록된 모델 1228개의 평가를 모두 마친 것으로 알려졌다. 시즌2는 지난해 8월12일 시작됐다.
지난주와 마찬가지로 니콜라스 비어바워가 1위를 차지하는 등 상위권은 해외 개발자들이 점령했다. '젬마 2'와 '큐원 2.5'를 베이스로 한 모델이다.
국내 개발자 중 최고 순위는 6위다. '석동(SEOKDONG)'이라는 개발자가 라마 3.1 기반으로 내놓은 'llama3.1_korean_v1.1_sft_by_aidx’가 평균 53.94점을 기록했다.
모델 설명에는 "자체 제작한 53개 영역의 한국어 데이터(3.6기가바이트)를 활용해 한국 사회 및 문화를 이해하는 모델을 만들었다"라고 강조했다. 데이터에는 233만건의 질의응답, 요약, 분류 등을 포함하고 있다는 설명이다.
그중 133만건은 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등 53개 영역의 객관식 문제로, 100만건은 38개 영역의 주관식 문제로 구성했다. 이를 통해 국내 사회의 가치와 인간 감정을 학습하는 데 초점을 맞췄다고 전했다.
이를 통해 이 모델은 텍스트 생성, 대화 추론, 문서 요약, 질의응답, 감정 분석 및 자연어 처리 관련 다양한 작업을 지원한다고 밝혔다. 특히 법률-재무-과학-교육-비즈니스-문화 연구 등 분야에서 폭넓은 활용이 가능하다고 강조했다.
이 밖에도 10위권에 진입한 모델의 평균 점수도 조금씩 오르고 있다. 1월 1주에는 10위 모델이 51점대를 기록했던 반면, 현재는 5~10위가 모두 53점대를 기록하고 있다.
리더보드의 상세 내용은 NIA 홈페이지나 허깅페이스 홈페이지에서 확인할 수 있다.
장세민 기자 semim99@aitimes.com
