‘ENT-11’의 자체 벤치마크 결과 (사진=코난테크놀로지)
‘ENT-11’의 자체 벤치마크 결과 (사진=코난테크놀로지)

인공지능(AI) 전문 코난테크놀로지(대표 김영섬)가 추론 모드가 통합된 신규 대형언어모델(LLM) '엔터프라이즈(ENT)-11'을 이달 말 정식 출시한다고 26일 밝혔다.

ENT-11의 매개변수는 320억개(32B) 규모이며, 일반 모드와 추론 모드를 하나의 엔진에 통합한 '하이브리드' 모델이라는 점이 가장 큰 특징이다. 단일 모델로, 일반 질의응답뿐만 아니라 복잡한 추론을 요구하는 작업에도 최적의 답변을 제공할 수 있도록 전환 대응한다는 설명이다.

국내에서 추론 모델 출시는 LG AI연구원에 이어 두번째이며, 추론-비추론 하이브리드 방식은 처음이다.

코난은 일반용 모델과 추론용 모델을 별도로 제공하는 타사 모델보다 더 낮은 GPU 비용으로도 고성능 AI 서비스가 가능하다는 점에서 차별화된다고 전했다. 

또 큐원, 라마, 젬마, 딥시크 등에 비해 한국어 토큰을 더 많이 사전 학습했기 떄문에 한국어 질의에 대한 처리 정확도와 응답 속도 등에서 앞선다고 밝혔다. 

자체 벤치마크에서도 성능이 검증됐다. ENT-11모델의 매개변수는 32B 규모로, 671B인 대형 모델 딥시크 R1 대비 약 5% 수준에 해당한다.

그럼에도 멀티턴 대화 및 지시를 따르는 능력을 측정하는 ‘MT-벤치’ 평가의 ▲작문 ▲역할극 ▲추론▲수학 ▲코딩 ▲정보 추출 ▲STEM(과학·기술·공학·수학) ▲인문학 8개 항목에서 '딥시크-R1'과 비슷한 점수를 기록했다.

코딩 성능은 크게 앞섰다. ENT-11와 매개변수가 같은 R1 32B 버전에 비해서 평균 4.75%p 성능이 높았다.

여기에 코난은 자체 벤치마크도 구축했다고 밝혔다. 

MT-벤치를 직접 번역 및 검수, 교정해 결과의 정확성을 높이고 오차를 감소한 ‘코난 MT-벤치’를 자체 구축해 신규 모델의 성능을 거듭 평가했다고 설명했다.

그 결과 ENT-11은 같은 크기의 R1 대비 평균 5.38%p 높은 성능을 기록했다. 특히 복잡한 추론과 수학 분야에서 모두 앞섰다. ENT-11의 일반 모드 성능도 이전 모델인 ‘ENT-10’ 대비 4.5%p 향상됐다.

컨텍스트 처리 능력도 향상됐다고 밝혔다. 기존 ENT-10 모델은 최대 16K 컨텍스트를 지원했지만, ENT-11은 최대 128K 토큰으로 확장했다. 한글 토큰 기준으로 A4 용지 128장 분량, 영어 토큰으로는 320장 분량에 달한다. 

김영섬 대표는 “LLM 모델이 늘어남에 따라 평가 방식도 다변화되는 가운데, 특정 평가 지표에만 과도하게 피팅돼 일부 평가에서만 성능이 좋게 나타나는 모델에 대해서는 변별력이 필요하다”라고 벤치마크 개발 이유를 밝혔다.

이어 “딥시크 R1 대비 20배나 작은 모델이지만, 더 나은 추론 성능을 입증했다"라며 "고품질의 한국어 데이터와 개발 인프라를 강점으로 앞으로도 코난테크놀로지가 만든 LLM 기술이 국내 생성 AI 성능의 바로미터가 될 수 있도록 매진하겠다”라고 말했다. 

박수빈 기자 sbin08@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지