오픈AI의 '코덱스', 딥마인드의 '알파코드', 아마존의 '코드휘스퍼러'와 같은 코드생성 인공지능(AI)을 오픈 소스로 만들어 누구나 쓸 수 있도록 하려는 프로젝트가 시작됐다.
코드생성 AI는 명령어를 입력하면 파이선, 자바스크립트 등 다양한 컴퓨터 언어로 코드를 만들어 준다. 개발 비용을 줄일 수 있고 개발자가 좀 더 창의적인 작업을 할 수 있도록 해준다는 점에서 각광받고 있다.
특히 오픈AI의 코덱스는 사람이 말로 명령하면 코드를 만들어 주고, 코드 일부만 입력해도 필요한 전체 프로그래밍 코드를 생성해 주기 때문에 앞으로 인간의 삶을 획기적으로 바꿀 수 있는 기술이라는 평가를 받기도 한다.
그러나 이런 코드생성 AI 시스템은 대부분 시스템 개발사가 상업 목적을 위해 공개를 제한하고 있다.
이번에 시작된 코드생성 AI 오픈소스화 움직임은 누구나 이런 시스템을 사용할 수 있도록 하자는 취지다.
AI 커뮤니티인 허깅페이스와 스타트업인 서비스나우 리서치가 27일 '공개적이고 책임있는' 방식으로 최첨단 코드 생성 AI를 개발하기 위한 프로젝트인 '빅코드(BigCode)'를 시작했다고 테크크런치가 보도했다. [관련 기사]
빅코드 프로젝트는 최종적으로 코드생성 AI시스템을 훈련할 수 있는 대규모 데이터셋을 만들어 배포하는 게 목표다.
데이터셋은 150억개의 매개변수를 가진 AI시스템을 훈련할 수 있는 크기로 만들 계획이다. 코덱스(매개변수 120억개)보다는 크고 알파코드(매개변수 414만개) 보다는 작은 규모의 코드생성 AI를 오픈 소스로 구축할 수 있게 하겠다는 것이다.
프로젝트 주최측은 이날부터 데이터셋 개발을 함께 할 전문가 자원봉사자 모집에 나섰다.
빅코드 프로젝트는 약 1000명의 학술 자원봉사자로 구성된 공개 협업 프로젝트인 빅사이언스로부터 영감을 얻었다. 빅사이언스는 구글이나 오픈AI의 대형 언어모델에 대항해 ‘블룸’이라는 언어 모델을 오픈 소스로 개발했다.
빅코드 프로젝트 주최자들은 또 데이터셋과 코드생성AI 개발 과정에서 책임있는 접근방식을 쓰겠다고 밝혔다. 여기서 책임있는 방식이란 윤리적으로 공정한 방식을 의미한다.
오픈AI의 코덱스나 이를 기반으로 만들어진 애플리케이션인 깃허브의 코파일럿은 유료다.
비영리 단체인 소프트웨어 자유 위원회(SFC)는 오픈AI와 깃허브가 코드생성AI를 만들면서 공개된 소스코드와 일부 라이선스를 얻지 않은 코드를 훈련 데이터로 쓴 사실을 비판했다. 공짜 소스코드를 써서 만든 도구를 유료로 파는 것은 공정하지 않다는 것이다.
또 라이선스가 필요한 코드를 데이터로 이용, 코드생성AI 최종 이용자가 저작권 위반 위험에 처할 수 있다는 점도 지적했다.
빅코드 프로젝트 주최자들은 라이선스 문제가 해결된 코드만을 데이터셋에 포함하고, 이를 일정한 라이선스 조건을 달아 개발자에게 배포해 책임있는 AI 관행을 수립할 계획이다.
정병일 위원 jbi@aitimes.com
- 깃허브, 코덱스 기반 노코딩 AI ‘코파일럿’ 정식 출시
- 말로 코딩하는 OpenAI 코덱스(Codex)...진정한 노코드(No-code) 실현해
- 오픈 소스 언어 모델 ‘블룸(BLOOM)’ 출시…오픈AI와 구글에 도전
- 서서히 그러다 갑자기 발전하는 기술
- 최신 AI 발빠르게 적용하는 MS
- MS, 오픈소스 무단 사용으로 피소 위기
- 리플릿, 코드 생성 AI ‘고스트라이터’ 출시
- "'깃허브 코파일럿'이 5년 내 프로그램 코드 80% 생성할 것"
- 말로 명령하면 AI가 코딩해준다
- 생성AI 훈련 방식 둘러싼 첫 법정 다툼 열린다
- "코드 생성AI는 보안에 취약"...스탠포드 연구진 실험 결과
