(사진=오픈AI)
(사진=오픈AI)

오픈AI가 일반인공지능(AGI)을 위한 학습 데이터셋 구축에 나선다고 밝혔다. 비디오와 다양한 외국어, 산업별 전문 분야 등을 관심 분야라고 밝혀, 향후 개발한 모델의 성격을 유추할 수 있게 했다.

오픈AI는 9일(현지시간) 공식 블로그를 통해 인공지능(AI) 모델 학습을 위한 공개 및 비공개 데이터셋 구축을 위한 외부 조직과의 협력안을 발표했다. 

우선 "궁극적으로 인류 모두에게 안전하고 유익한 AGI를 만들기 위해서는 AI 모델이 모든 주제, 산업, 문화, 언어를 깊이 이해해야 하며, 이를 위해서는 가능한 한 광범위한 교육 데이터 세트가 필요하다"라고 소개했다.

이어 '우리가 찾고 있는 데이터의 종류'라는 항목을 통해 "대중이 온라인으로 쉽게 접근할 수 없는 대규모 데이터 세트에 관심이 있다"라고 전했다. 

또 "텍스트, 이미지, 오디오, 비디오 등 모든 형식으로 작업할 수 있다. 우리는 특히 모든 언어, 주제 및 형식에 걸쳐 인간의 의도를 표현하는 데이터(단절된 단편이 아닌 긴 형식의 글쓰기 또는 대화)를 찾고 있다"라고 덧붙였다.

이중 '모든 형식'과 '모든 언어'를 강조한 부분이 눈에 띈다. 즉 새 모델은 현재의 텍스트나 이미지를 넘어 비디오까지 이해하는 멀티모달 모델로 보인다. 또 현재 챗GPT가 영어 이외에 약점을 보이는 부분을 감안, 최대한 많은 언어를 학습하려는 의도로 파악된다.

구체적으로 "우리는 거의 모든 형태의 데이터로 작업할 수 있으며 차세대 사내 AI 기술을 사용하여 데이터를 디지털화하고 구조화할 수 있다. 예를 들어, 우리는 PDF와 같은 파일을 디지털화하는 세계 최고 수준의 광학문자인식(OCR) 기술과 음성을 텍스트로 변환하는 자동음성인식(ASR) 기술을 보유하고 있다"라고 설명했다.

더불어 '우리와 협력하는 방법'이라며 두가지 방안을 제시했다.

첫번째 옵션은 오픈 소스 데이터셋을 구축하고 누구나 사용할 수 있도록 공개하는 방안이다.

주목할 것은 "독점 데이터셋을 제공해 민감한 정보의 기밀성을 보장하는 동시에 오픈AI의 모델이 특정 도메인에 대한 더 깊은 이해를 얻을 수 있도록 지원한다"는 두번째 케이스다. 오픈AI는 비공개 데이터셋을 활용해 AI 모델을 미세조정, 분야별로 맞춤화된 AI 모델을 확보할 것이라고 설명했다.

이는 범용 모델이 아닌 특정 전문 분야나 산업에 맞춘 미세조정을 염두에 둔 것이다. 실제 AI를 도입하려는 기업은 파운데이션 모델을 미세조정해야 하는데, 오픈AI는 이를 돕기 위해 분야별 전문 모델을 구축하려는 의도로 보인다.
   
오픈AI는 실례로 이미 아이슬란드 정부와 비영리 단체인 프리 로 프록젝트(Free Law Project) 등과 파트너십을 맺었다고 공개했다. 전자의 경우는 외국어 능력을, 후자는 법률 분야의 전문 지식을 학습할 기회다.

이 데이터셋이 AGI 개발에 활용할 것이라고 거듭 강조했다. 오픈AI는 "전반적으로 우리는 모든 사람에게 최대한 도움이 될 수 있도록 AI가 세상을 이해하도록 가르치는 데 도움을 주고 싶은 파트너를 찾고 있다. 우리는 함께 인류 모두에게 이익이 되는 AGI를 향해 나아갈 수 있다"라고 글을 맺었다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지