(영상=코그니션)

전체 소프트웨어 개발 프로젝트를 알아서 수행하는 인공지능(AI) 소프트웨어 엔지니어가 등장했다. 코드를 제안하고 일부 작업을 완료할 수 있는 단순 코딩 도우미가 아니라, 사람의 개입 없이 자체적으로 전체 프로젝트를 자동 완료할 수 있는 완전 자율 'AI 에이전트'라는 설명이다.

벤처비트는 12일(현지기간) AI 스타트업 코그니션이 코드 작성, 버그 수정, 최종 제품 실행을 포함하여 전체 개발 프로젝트를 처음부터 끝까지 처리할 수 있는 완전 자율형 AI 소프트웨어 엔지니어 ‘데빈(Devin)’을 공개했다고 전했다.

이에 따르면 데빈은 마이크로소프트(MS)의 깃허브 코파일럿과 같이 엔지니어에게 단순히 기본 코드를 작성하거나 스니펫을 제안할 수 있는 코딩 도우미와는 다르다.

전체 소프트웨어 프로젝트를 스스로 맡아 완료할 수 있다는 설명이다.

예를 들어 "시드니의 모든 이탈리아 레스토랑을 매핑하는 웹사이트를 구축하라"는 지시를 던져 주면, 데빈은 검색을 수행해 레스토랑을 찾고 주소와 연락처 정보를 얻은 다음 정보를 보여주는 사이트를 제작하고 게시한다. 

사용자가 자연어 명령으로 작업 요청을 하면, 데빈은 문제를 해결하기 위한 상세한 단계별 계획을 개발한 다음 개발자 도구를 사용해 코드를 작성하고 문제를 수정하면서 작업을 완료한다.

또 작업을 진행하면서 계획에 대해 알려주고 사용 중인 명령과 코드, 테스트 결과 등의 진행 상황을 사용자에게 실시간으로 보고한다. 사용자는 문제를 발견하면 데빈에게 문제를 해결하라는 메시지를 보낼 수 있다.

스캇 우 코그니션 CEO는 "AI가 프로그래머가 된다는 것은 복잡한 결정을 내리고 어떤 경로를 선택해야 할지 결정하기 위해 미래를 내다보는 몇가지 단계가 필요한 매우 심오한 알고리즘 문제"라고 설명했다.

데빈의 능력은 기본적인 코딩 작업 이상의 광범위한 영역을 포함한다. 앱이나 웹사이트 배포 및 개선부터 코드베이스의 버그 찾기 및 수정에 이르기까지 광범위한 개발 프로젝트를 처리할 수 있다. 깃허브 리포지토리를 사용하여 대형언어모델(LLM)에 대한 미세 조정을 설정하거나 익숙하지 않은 기술을 사용하는 방법을 배울 수도 있다.

SWE 벤치마크 테스트 결과 (사진=코그니션)
SWE 벤치마크 테스트 결과 (사진=코그니션)

실제 깃허브의 오픈 소스 프로젝트에서 발생한 문제로 한 SWE 벤치마크 테스트에서, 데빈은 사람의 도움 없이 13.86%의 사례를 정확하게 끝까지 해결했다.

반면, '클로드 2'는 4.80%, 'SWE-라마-13b'와 'GPT-4'는 각각 3.97%와 1.74%의 문제 해결에 그쳤다. 다른 모델들은 심지어 어떤 파일을 수정해야 하는지 알려줘야 했다.

소프트웨어 개발을 위한 AI 도구는 새로운 것은 아니지만, 데빈은 아직 개념 수준인 AI 에이전트를 본격화했다는 점에서 주목받고 있다

코그니션은 이 성과를 어떻게 달성했는지, 자체 독점 모델을 사용하는지 아니면 제3자의 모델을 사용하는지 밝히지 않았다. 다만 오픈AI의 GPT-4와 같은 LLM을 '강화 학습' 기술과 결합하는 독특한 방법을 발견했다고 언급했다.  

또 "코딩은 시작에 불과하다"라며 다른 분야에 유사한 AI 에이전트를 출시할 가능성을 암시했다.

현재 데빈은 일부 사용자에게만 조기 액세스를 제공하고 있으며, 이메일을 통해 연락해 권한을 얻을 수 있다.

한편 코그니션은 피터 틸의 파운더스 펀드와 트위터 임원 엘라드 길, 도어대시 창립자 토니 슈와 같은 거물들의 지원으로 누적 2100만달러(약 2800억원)의 자금을 마련한 것으로 알려졌다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • 허깅페이스, 엔비디아 등과 합작해 오픈 소스 '코드 생성 AI' 출시
  • 구글, 내부 직원용으로 코드 생성 AI '구스' 따로 설계
  • 애플, 코드 생성 AI 출시 임박...iOS 업데이트 코드명은 '크리스털'