LLM에 맡긴 의뢰 내용 (사진=arXiv)
LLM에 맡긴 의뢰 내용 (사진=arXiv)

인공지능(AI)이 소프트웨어 개발자를 대체할지 모른다는 목소리가 커지지만, 실험 결과는 아직 그렇지 않은 것으로 알려졌다. 이를 위해 연구진은 실제 프리랜서 사이트에 올라온 의뢰 내용을 대형언어모델(LLM)에 맡겼다.

오픈AI 연구진은 19일(현지시간) 온라인 아카이브를 통해 '소프트웨어 프리랜서(SWE) : 프론티어 LLM이 실제 프리랜서 소프트웨어 엔지니어링 업무에서 100만달러를 벌 수 있을까?'라는 제목의 논문을 게재했다. 

제목 그대로, 유명한 프리랜서 플랫폼 업워크(Upwork)에 올라온 SW 엔지니어링 외주 프로젝트를 LLM에 맡겼다는 내용이다. 그리고 그 결과로 돈을 벌 수 있을만큼 성과를 냈는지를 테스트했다.

연구진은 오픈AI의 'o1'과 'GPT-4o', 앤트로픽의 '클로드 3.5 소네트' 등 3개의 모델에 1488개의 SW 업무를 맡겼다. 프로젝트에서 얻을 수 있는 총 수익은 100만달러(약 14억4000만원)였다.

LLM이 맡을 업무도 2가지로 구분했다. 하나는 버그를 해결하거나 기능을 구현하는 15분에서 일주일까지 걸리는 개별 프로젝트 764개로, 이를 모두 성공하면 41만4775달러를 벌 수 있다.

나머지 하나는 좀 더 포괄적인 기획 업무로, SW 문제를 해결하기 위한 최상의 제안을 선택하는 관리자 역할을 하는 것이다, 여기에는 58만5225달러가 걸렸다.

연구진은 LLM에 업무를 설명하기 위해 작업 제목과 설명, 코드베이스의 스냅샷을 기반으로 프롬프트를 생성했다. 이를 통해 구축한 것이 '소프트웨어 프리랜서 다이아몬드 데이터셋(SWE-Lancer Diamond set)'이다. 

실제로 업무 결과를 제출한 것이 아니라, 데이터셋 벤치마크를 통해 전문 SW 엔지니어가 모델의 출력을 '3중'으로 검증했다.

그 결과, 100만달러를 받을 만한 결과를 내놓은 모델은 하나도 없었다. 그중 가장 좋은 성적을 낸 클로드 3.5 소네트의 경우 SW 개별 작업에서 26.2%의 프로젝트를 해결, 5만8000달러를 벌 수 있는 것으로 타나났다. 뒤를 이어 o1이 16.5%로 2만9000달러, GPT-4o가 8%로 1만4000달러치의 문제를 해결했다.

관리자 업무에서는 30~40%대로 조금 더 나은 성적을 거뒀다. 결국, 클로드 3.5 소네트는 총 20만8000달러를, o1이 16만6000달러, GPT-4o가 13만9000달러를 벌 수 있는 것으로 집계됐다.

벤치마크 결과 (사진=arXiv)
벤치마크 결과 (사진=arXiv)

연구진은 "실제 프리랜서 작업은 프론티어 모델에게도 여전히 어려운 것으로 나타났다"라고 정리했다.

또 "LLM은 키워드 검색을 사용해 관련 파일과 기능을 빠르게 찾아내 문제의 근원을 매우 빠르게 파악한다. 종종 사람이 하는 것보다 훨씬 빠르다"라며 "그러나 문제가 여러 구성 요소나 파일에 걸쳐 있는 경우, 이해가 부족하고 근본 원인을 해결하지 못해 잘못된 답을 내놓는다"라고 말했다.

즉, 이번 벤치마크 결과로 AI 모델은 일부 저수준의 코딩 문제를 해결할 수 있지만, 저수준의 소프트웨어 엔지니어를 아직 대체할 수는 없다는 것을 보여줬다는 평이다. 모델은 여전히 ​​시간이 걸리고 종종 실수를 했으며 버그를 발견하는 데 실패했다.

그러나 연구진은 AI 기술 발전으로 이런 현상이 오래가지 않을 수도 있다고 말했다. 

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지