마이크로소프트(MS)는 챗GPT 기능을 더한 새 검색엔진 '빙'에 긍정적인 평가를 내렸다. 다만 아직은 개선의 여지가 많다는 점은 인정했다. 뉴욕타임스와 테크크런치 등은 부적절한 답변을 내놓거나 오류가 많다며 혹평을 쏟아냈다.
블룸버그는 MS가 16일(현지시간) 블로그를 통해 지난 일주일 동안 169개국 이용자를 대상으로 새로 출시한 '빙'과 엣지 브라우저에서 AI와 챗 기능을 테스트한 결과 사용자의 71%가 AI의 답변에 만족감을 보였고, 채팅 기능이 인기였다고 밝혔다고 보도했다.
하지만 재무보고서와 같이 높은 수준의 정확도가 필요한 쿼리의 경우 응답에 필요한 데이터를 4배로 늘려야하기 때문에 15개 이상 질문하는 긴 대화에서는 AI가 어려움을 겪는 것을 발견했다고 털어놓았다.
이번 테스트에서 업데이트한 검색엔진이 이상한 응답을 했다는 사실도 인정했다. 일부 사용자가 AI로 강화한 빙에서 무례하고 조작적이며 불안한 응답을 받았다는 것이다.
MS측은 "일부 사용자는 느린 로딩과 잘못된 형식 또는 끊어진 링크와 같은 기술적인 문제나 버그를 보고했다"면서 "이 가운데 많은 부분을 해결하고 있으며, 앞으로 정기적인 업데이트를 제공할 계획"이라고 밝혔다.
그런데 MS의 이번 일주인간의 테스트 결과를 부정적으로 바라보는 시각도 적지않게 나왔다. 뉴욕타임스와 테크크런치 등은 빙의 챗봇과 대화할 때 사용자에게 사랑고백을 하거나 모욕을 주고 가스라이팅하는 등 부적절한 답변을 남발했다고 지적했다.
테크크런치는 잘못된 검색 정보를 제공하고 부적절한 대화를 양산하는 등 기본적인 수준에서 오류로 가득하기 때문에 연구 목적으로는 활용하겠지만 대중에 공개하는 것은 무리라고 혹평했다.
한편 구글도 '바드(Bard)' 테스트를 진행한다. 16일자 CNBC 보도에 따르면 구글은 전직원을 대상으로 하루에 2~4시간을 할애해 검색 기능에 통합할 예정인 바드 AI를 테스트해 줄 것을 요청했다. 테스트 시 해야할 일과 하지 말아야 할 일에 대한 지침도 내린 것으로 알려졌다.
박찬 위원 cpark@aitimes.com
