소프트웨어 디버깅 분야에서 인공지능(AI) 모델이 아직 인간을 따라잡기 어렵다는 연구 결과가 나왔다. AI가 인간의 실제 디버깅 과정을 학습할 수 있는 충분한 데이터가 부족하다는 점이 문제로 지적됐다.
마이크로소프트(MS) 리서치는 10일(현지시간) 최신 AI 모델들이 소프트웨어 디버깅 벤치마크에서 기대 이하의 성능을 보였다는 연구 결과를 발표했다.
이번 연구는 파이썬 디버거를 포함한 다양한 디버깅 도구에 접근할 수 있는 ‘프롬프트 기반 에이전트’를 통해 진행됐다. 연구진은 이 에이전트에 총 9종의 AI 모델을 탑재한 뒤, ‘SWE-벤치-라이트(SWE-bench Lite)’ 벤치마크에서 엄선된 300개의 디버깅 과제를 해결하도록 실험을 설계했다.
결과는 다소 실망스러웠다. 성공률이 가장 높았던 모델은 앤트로픽의 ‘클로드 3.7 소네트’로, 평균 48.4%의 성공률을 기록했다. 오픈AI의 ‘o1’은 30.2%, ‘o3-미니’는 22.1%에 그쳤다.
대부분의 모델이 전체 과제 중 절반도 해결하지 못한 셈이다.
앞서 순다 피차이 구글 CEO는 지난 10월 “현재 구글의 신규 코드 중 25%가 AI로 생성되고 있다”고 밝혔으며, 마크 저커버그 메타 CEO도 회사 업무에 AI 코딩을 대대적으로 도입하겠다고 언급한 바 있다. 그러나 이번 연구는 AI가 실제 개발 현장에서 인간 수준의 문제 해결 능력을 갖추기까지는 아직 갈 길이 멀다는 점을 보여준다는 평이다.
연구진은 AI 모델이 낮은 성능을 보인 주요 원인으로 데이터 부족을 꼽았다. 특히 디버깅과 같이 단계적으로 판단하고 조치를 취하는 순차적 의사결정 과정을 담은 학습 데이터가 매우 부족하다는 것이다.
이에 따라 연구진은 “앞으로는 디버깅 도구와 상호작용하며 문제 해결에 필요한 정보를 수집하는 AI 에이전트의 ‘행동 궤적(trajectory)’ 데이터를 활용한 훈련이 필요하다”라고 강조했다.
박찬 기자 cpark@aitimes.com
