카카오, 코지피티(KoGPT) 성능 본래 점수보다 높게 공개
코드상 문제로 초기화하지 않고 평가한 점수 그대로 기입
리포트에 밝힌 점수보다 5점 정도 낮아...평가 공정성 훼손
테스트코드는 수정하고 점수는 그대로 반영 '고의성 다분'

카카오가 깃허브에 공개한 초거대 AI '코지피티(KoGPT)' 점수가 잘못된 것으로 조사됐다. (사진= 'if (kakao) 2021'에서 카카오브레인 김일두 대표가 KoGPT를 소개하는 모습)
카카오가 깃허브에 공개한 초거대 AI '코지피티(KoGPT)' 점수가 잘못된 것으로 조사됐다. (사진= 'if (kakao) 2021'에서 카카오브레인 김일두 대표가 KoGPT를 소개하는 모습)

카카오가 오픈소스 커뮤니티 깃허브(Github)에 자사 초거대 인공지능(AI) '코지피티(KoGPT)' 점수를 본래 점수보다 높게 기재한 것으로 조사됐다. 테스트 과정에서 코드상 문제로 기존 성능보다 높은 점수가 나왔지만 이를 바로잡지 않고 잘못된 점수를 공개했다. 카카오브레인은 해당 모델을 공개하며 경쟁사 초거대 AI 모델보다 높은 점수를 기록했다고 밝혔다. 그러나 사실은 점수가 대등하거나 낮았던 것으로 파악됐다.

16일 복수의 AI 업계 관계자에 따르면 카카오브레인이 지난해 11월 깃허브에 공개한 코지피티(KoGPT) 성능평가 점수가 잘못된 것으로 나타났다. 테스트 과정에서 초기화를 시키지 않고 테스트를 해 기존보다 높은 점수가 나왔다. 하지만 이를 수정하지 않고 그대로 높은 점수를 기재했다. 잘못된 코드명은 수정하고 잘못 나온 점수는 그대로 기입해 고의성이 다분하다는 평가다.

한 AI 업계 관계자는 "테스트 과정에서 코드가 초기화가 되지 않아 다른 성능평가에 그 점수가 반영되는 문제가 있었다"며 "평가를 진행한 다른 기업은 오류를 파악하고 다시 성능을 평가해 점수를 고쳤다. 그렇지만 카카오는 오류가 발생한 코드는 수정하고 높게 나온 점수는 리포트에 그대로 반영했다"고 지적했다.

이어 "제대로 된 평가를 했을 때 카카오 코지피티 점수는 리포트에 발표한 점수보다 약 5점 정도가 낮다"며 "카카오는 자사 초거대 AI 모델이 네이버 하이퍼클로바나 SKT 코지피티2(KoGPT-2)보다 높은 성능을 보였다고 발표했지만 이는 잘못된 사실"이라고 말했다.

당시 평가에서 각 기업은 SKT가 공개한 동일 테스트코드를 사용해 초거대 AI 모델 성능을 평가했다. 문제는 밸리데이션 애큐러시(Validation Accuracy) 평가에서 발생했다. 기업들은 'metric_acc'라는 동일 객체를 이용해 '트레인 애큐러시(Train accuracy)' 값과 '밸리데이션 애큐러시 값'을 측정했다. 이때 트레인 애큐러시에 초기화 코드가 존재하지 않아 밸리데이션에 트레인 값이 포함돼 점수가 높게 나오는 문제가 발생했다.

초거대 AI 모델 성능평가에서 카카오가 코드상 문제로 잘못된 점수를 기입한 부분. Ours가 카카오브레인의 KoGPT 점수다. (사진=깃허브)
초거대 AI 모델 성능평가에서 카카오가 코드상 문제로 잘못된 점수를 기입한 부분. Ours가 카카오브레인의 KoGPT 점수다. (사진=깃허브)

기업들은 본래 점수보다 높은 평가가 나오자 원인 분석에 나섰다. 이후 트레인 애큐러시에 초기화 코드가 없다는 것을 파악해 다시 성능평가 후 테스트코드와 점수를 수정해 리포트에 반영했다. 하지만 카카오는 예외였다. '카카오 파인튜닝 점수 리포트'에 테스트코드는 수정했지만, 잘못 나온 점수는 그대로 반영했다.

AI 업계 관계자는 "테스트코드는 수정했는데 점수는 그대로 반영했다는 것은 고의성이 다분해보인다"고 지적했다. 또 다른 관계자는 "카카오는 네이버와 LG가 초거대 AI 모델을 공개하고 성능을 입증하자 급하게 코지피티를 공개한 감이 있다"면서 "성과에 쫓겨 이런 오류를 발생한 것으로 보인다"고 평가했다.

코지피티는 카카오브레인이 지난해 11월 공개한 초거대 AI 언어모델이다. 60억 개의 매개변수와 2000억 개 토큰(token)의 한국어 데이터를 바탕으로 구축했다. 코지피티는 발표 당시 네이버 '하이퍼클로바'와 LG '엑사원'에 비해 성능이 낮다는 평가를 받았다. 하이퍼클로바와 엑사원이 각각 2040억 개, 3000억 개 파라미터를 보유한 것과 비교해 코지피티는 300억 개 파라미터만을 보유하고 있어서다. 일반적으로 파라미터가 많을수록 정교한 학습이 가능한 것으로 알려져 있다.

카카오브레인 측은 이번 사안에 대해 의도한 것은 아니라고 해명했다. 타사에서 공개한 코드가 버그가 있다는 것을 알기 전 결과물을 깃허브에 올렸고, 해당 코드가 버그가 있다는 것을 알지 못해 수정하지 못했다는 입장이다. 또 코드에 대한 문제가 있다는 것을 알게된 이상 다시 성능 테스트를 진행해 그 결과물을 빠른 시일 내 깃허브에 올리겠다고 밝혔다.

카카오브레인 관계자는 "타사에서 공개한 코드를 기반으로 성능 테스트를 했는데 그 코드에 버그가 있다는 것은 우리가 결과물을 올린 11월 초보다 늦은 11월 말"이라고 말했다. 이어 "타사 코드에 버그가 있다는 것을 일일이 추적해서 알기 어렵기 때문에 수정하지 못한 것"이라며 "의도적으로 점수를 높게 측정한 실험을 한 것이 아니라, 11월 실험 당시 데이터 기준으로 실험을 한 것으로 봐야 한다"고 설명했다.

테스트코드는 수정했지만, 점수는 그대로 반영했다는 의견도 아니라고 주장했다. 관계자는 "테스트코드와 결과 모두 수정한 바 없다"며 "단지 11월 초 기준 실험 결과가 그대로 공개된 것"이라고 해명했다. 이어 "현재 SKT에서 코드를 수정했음을 인지했으며 해당 코드를 기반으로 최대한 빠른 시일내 성능 테스트를 진행해 다시 깃허브에 공개할 예정"이라고 밝혔다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사]김일두 카카오브레인 대표 "세계 최대 규모 AI 멀티모달 모델 곧 공개할 것"

[관련기사]카카오브레인, 초거대 멀티모달 AI 'minDALL-E' 공개...국내 두 번째

키워드 관련기사
  • 카카오브레인, '구글 TPU'로 국내 최대 딥러닝 슈퍼컴퓨팅 인프라 구축
  • 카카오, 공동연구팀과 자사 초거대 AI 'KoGPT' 후속 연구 계획 공개
  • [분석] 베일 벗은 카카오 초거대 AI ‘KoGPT’, 기존 모델과 비교해보니