IBM이 생성 인공지능(AI)으로 발생한 모든 저작권 문제를 책임지겠다고 선언했다. 또 AI 학습에 사용한 데이터셋을 공개하겠다며, 기업용 AI 경쟁을 위해 승부수를 던졌다.
뉴욕타임스는 28일(현지시간) IBM이 고객사의 불안감을 완화하가기 위해 이런 캠페인을 발표하는 등 AI 기업 중 저작권 문제에 가장 공격적인 모습을 보였다고 보도했다.
IBM은 지난 8일 '왓슨x' 플랫폼에서 사용할 수 있는 새로운 대형언어모델(LLM) ‘그래니트(Granite)’를 비롯해 ▲오픈소스 LLM 등 파운데이션 모델과 ▲데이터 생성기 및 데이터 관리 도구 ▲미세조정 도구 ▲벡터 데이터베이스 등 생성 AI 모델을 구축하기 위한 라인업을 대거 선보였다. 이를 통해 기업을 위한 '토털 AI 서비스 시스템'을 구축했다는 평가를 받았다.
이번에 밝힌 내용은 더 파격적이다. 마이코르소프트(MS) 역시 이달 초 생성 AI 사용자가 저작권 문제에 엮일 경우 회사가 대신 모든 책임을 지겠다는 면책 조항을 내걸었다. 어도비나 셔터스톡 등 이미지 생성 AI 서비스 기업들도 비슷한 약속을 했다. 하지만 학습에 사용한 데이터셋까지 모두 공개하겠다고 밝힌 곳은 IBM이 처음이다.
이에 대해 패트릭 무어헤드 인사이트 앤 스트래트지 CEO는 "IBM의 조치는 생성 AI 비즈니스 시장이 향하는 방향과 보조를 맞추고 있다"라고 평가했다.
특히 데이터셋 공개에 대해서는 “기업은 AI에 입력된 데이터가 무엇인지 알아야 하고, 왜 그런 대답을 얻었는지 이해해야 한다”라며 “고객사나 기밀 데이터를 AI 모델에 넣는 것은 큰 위험이기 때문”이라고 설명했다.
또 오픈AI의 'GPT-4'나 구글의 '팜 2'과 같은 일반 사용자 대상의 범용 대형언어모델(LLM)은 어떤 데이터셋으로 학습했는지가 밝혀지지 않은 폐쇄형으로, 이런 모델은 기업을 만족시키기 어려울 것이라고 지적했다.
실제로 IBM의 왓슨x 서비스는 일반 사용자를 위한 챗봇이 아닌 기업 전용 서비스다. 따라서 자체 모델인 그래니트 역시 매개변수가 130억개로, 1조5000억개로 추정되는 GPT-4의 10분 1 정도에 불과하다.
또 기업용으로 서비스하는 대부분 오픈 소스 LLM 역시 매개변수가 범용 LLM에 비해 훨씬 적은 편이다. 이런 기업용 전문 모델은 인터넷 등에서 공개적으로 스크랩한 대규모 데이터가 아니라, 저작권이 해결된 엄선한 소규모의 전문 데이터를 사용해 훈련한다.
롭 토마스 IBM 소프트웨어 담당 수석 부사장은 "데이터 학습의 범위가 줄어들면 정확도도 향상된다"라며 “기업용 AI 시장에서는 정확성이 크기보다 훨씬 더 중요하다”라고 말했다.
더불어 작은 LLM은 거대한 소비자용 챗봇보다 훨씬 적은 컴퓨팅 능력을 필요하기 때문에 기업의 시간과 비용을 아껴주는 효과가 있다고 덧붙였다.
이주영 기자 juyoung09@aitimes.com
