아하 커뮤니티를 운영 중인 아하앤컴퍼니(대표 서한울)는 인공지능(AI) 전문 업스테이지(대표 김성훈)가 개발 중인 대형언어모델(LLM) 학습에 필요한 한국어 코퍼스 데이터를 공급한다고 8일 밝혔다.
업스테이지는 LLM ‘솔라’를 개발한 국내 대표 AI 기업이다. 지난달에는 차세대 LLM ‘솔라 프로’의 프리뷰 버전을 공개한 바 있다.
이번 계약을 통해 아하앤컴퍼니는 업스테이지에 한국어 코퍼스 데이터를 제공한다. '아하'는 궁금한 점을 질문하면 다양한 분야의 검증된 전문가로부터 답변을 받을 수 있는 온라인 Q&A 커뮤니티다. 법률, 세금-세무, 인사-노무, 의료, 약료, 반려동물, 치과, 보험, 부동산 등 다양한 분야의 질문 및 전문가의 신뢰도 높은 답변 데이터를 보유 중이다.
1차적인 데이터 가공(개인정보 제거 등)이 선행됐기 때문에 고객사의 검수 편의성 확보와 학습 시 부적합한 답변 가능성을 줄여준다. 내부 정책에 따른 아하 지수 및 어뷰징 적발 알고리즘 기반으로 답변자의 답변 퀄리티를 유지 중이다. 이 외에도 답변자 내부 랭킹 산정 등 콘텐츠 QC 정책을 통해 고품질 한국어 데이터 생산 환경을 구축하고 있다.
서한울 아하앤컴퍼니 대표는 “업스테이지 LLM 개발에 한국어 코퍼스 데이터를 공급하게 돼 영광스럽게 생각한다”라고 말했다.
장세민 기자 semim99@aitimes.com
관련기사
