티쓰리큐의 자체 평가 결과, 딥시크는 ‘신속한 작업’보다 ‘정확한 의사결정’에 강한 것으로 나타났다.
인공지능(AI) 빅데이터 미들웨어 전문 티쓰리큐(대표 박병훈)는 데이터 통합 플랫폼 ‘EDPP’를 통해 딥시크와 챗GPT 등 대형언어모델(LLM)의 성능 비교-분석을 진행했다고 27일 밝혔다.
티쓰리큐의 AI 기반 데이터 통합 플랫폼 EDPP는 다양한 AI 모델을 고객 필요에 맞게 탑재해 활용할 수 있는 솔루션이다. 이를 이용해 딥시크 모델을 적용, 내부 환경에서 테스트하는 연구를 진행했다고 전했다. 사용한 모델은 ‘딥시크-R1’과 ‘o1’, ‘큐원(Qwen2.5-32B)’ 등이다.
먼저, 수학 문제 해결 테스트를 진행했다. 한변의 길이가 정수 n인 정육면체에서, 특정 조건을 만족하는 작은 정육면체 갯수를 계산하는 방식으로 추론 능력을 평가했다.
그 결과, R1은 총 67초를 소요해 논리적으로 세부 과정을 상세히 설명해 냈다. o1은 11초 만에 정답을 도출, 적절한 길이의 답변을 제공했다. 큐원은 오답을 생성했다.
즉, 딥시크는 인간과 유사한 사고 과정으로 문제 해결 방법을 정리하며 답변을 도출했지만, 계산 속도가 다소 느리다는 단점이 있었다고 전했다.
다음으로는 논리적 추론 테스트를 진행했다. 살인사건에서 5명의 용의자 진술을 분석, 진술의 참과 거짓을 기반으로 범인을 추론하는 방식이다.
이 역시 딥시크는 총 153초를 소요해 모든 ‘가능한 시나리오’를 고려, 이후 최적의 답을 찾아냈다. o1은 17초 내에 정답을 도출했지만, 과정 설명이 다소 미흡했다는 분석이다. 큐원은 해당 테스트에서도 오답을 생성했다.
눈에 띄는 점은 딥시크가 모든 가능성을 고려하며 다단계 추론을 진행했다는 것이다. 역시 신뢰도 높은 답변을 생성하는데 강점을 보였다고 설명했다.
마지막은 게임 개발 코딩 테스트다. 자바스크립트를 활용해 간단한 ‘두더지 잡기 게임(Mole Whack Game)’을 개발하는 테스트를 진행했다.
이 경우, o1은 단 2초 만에 기본 기능을 구현해냈다. 딥시크는 17초 동안 필요 기능을 모두 분석, 타이머와 점수 시스템까지 포함한 ‘완성도 높은’ 코드를 생성했다. 큐원은 실행 불가능한 코드를 제공했다.
티쓰리큐는 "결과적으로 R1은 차별화된 학습 방식을 이용, o1과는 ‘적용 분야’가 달라질 수 있을 것"이라고 분석했다.
구체적으로 o1은 감독 미세조정(SFT), 보상 모델 학습(Reward Model Training), 인간 피드백 강화학습(RLHF) 등으로 학습했지만, R1은 ‘콜드 스타트 파인튜닝’과 강화학습(RL), SFT, RLHF 등 과정을 거쳤다는 설명이다.
두 모델 모두 자기 검증 및 ‘사고 사슬(CoT)’ 방식을 활용해 논리적 추론을 강화했으며, 인간과 유사한 문제해결 방식을 보이는 것이 특징이라고 전했다.
이런 모델은 실시간 처리보다 정확도가 더 중요한 산업인 설비 운용, 금융, 법률, 코딩 등과 의사 결정 지원을 위한 비즈니스 분석에 유용할 것이라고 결론 내렸다.
티쓰리큐 관계자는 “이번 테스트를 계기로, AI 모델 연구 및 응용 기술력을 한층 더 강화하고 기업이 AI를 쉽게 활용할 수 있도록 다양한 모델을 지원하는 EDPP를 고도화해 전산업의 AI 전환 가속화에 앞장설 것”이라고 말했다.
장세민 기자 semim99@aitimes.com
- 국내 AI 기업 "딥시크, 기능 인상적이지만 보완할 점도 드러나"
- [신년사] 박병훈 티쓰리큐 대표 “AI 사업 민간 부문으로 확대…기업 맞춤 LLM 지원할 것”
- [2024 결산] (5) 국내 AI 기업 살린 리더보드...국내외서 잇달아 '스타 탄생'
- [3월2주] 티쓰리큐, 큐원 미세조정 모델로 ‘허깅페이스 소형 LLM 리더보드’ 1위 달성
- 박병훈 티쓰리큐 대표 “기업 AI 도입은 '모델'로만 해결 안 돼...'플랫폼'으로 사용성 극대화”
- 티쓰리큐, 언론진흥재단 미디어 AI 플랫폼 서비스 구축
- 티쓰리큐-아이타이쿤, 전략적 파트너십…“AI 기반 데이터 혁신 시장 공략 본격화”
