2014년 6월 앨런 튜링의 사망 60주년을 기념하기 위해 영국의 레딩대학교는 영국 왕립학회에서 ‘2014 튜링 테스트 대회’를 거행했다. 대회 결과를 발표한 레딩대의 케빈 워윅(Kevin Warwick) 교수는 5팀이 참가했는데, 평가자 중 33%가 인간이라고 생각한 ‘유진 구스트만(Eugene Goostman)’이 역사상 최초로 튜링 테스트를 통과했다고 공식 발표했다.
유진 구스트만은 두명의 러시아 개발자와 한명의 우크라이나 개발자로 구성된 프로그래머 그룹이 2001년에 처음 개발한 컴퓨터 챗봇 프로그램이었다. 2014년 당시 유진은 우크라이나 출신의 13세 소년을 시뮬레이션했는데, 이전에도 여러 곳에서 주최한 튜링 테스트에 참가했다. 챗봇 AI 일라이자를 설명하면서 언급한 뢰브너상 대회(Loebner Prize Competition)에서 두번이나 2위를 차지했고, 2012년의 튜링 탄생 100주년 기념 튜링 테스트에서도 심사 위원들 29%가 유진을 인간이라고 판단해 우승했다.
튜링 테스트는 1950년에 발표된 튜링의 논문 ‘계산 기계와 지능(Computing Machinery and Intelligence)’에서 처음 제시됐다. 그는 지능과 관련해 “기계가 생각을 할 수 있는가”라는 질문을 던지고, 생각이나 사고는 한가지 방법으로 정의하거나 확인하기 쉽지 않으므로 이를 확인할 수 있다고 생각되는 실험 방법을 제시했다.
현재 우리가 일반적으로 튜링 테스트라고 부르는 방법은 1952년에 다시 제안된 방식이다. 기계, 사람 그리고 평가자는 서로 분리된 공간에 있고, 평가자는 기계 및 인간과 텍스트 기반으로 소통하게 한다. 그 결과 3분의 1 이상의 평가자가 기계와 사람을 구분할 수 없으면, 그 기계는 튜링 테스트를 통과한 것으로 간주하는 것이다. 일반적으로 기계 혹은 컴퓨터가 지능을 가졌는지 시험해 보는 방법으로 알고 있지만, 튜링은 기계가 인간의 지능적 행동을 흉내 낼 수 있는지를 시험하는 방법으로 제안했다.
워윅 교수는 대회 결과를 발표하면서 “어떤 사람들은 이미 튜링 테스트는 통과된 것이라고 주장할 것”이라고 했다. 또 “이미 유사한 테스트가 튜링 테스트라는 이름으로 많이 진행되고 있지만, 이번 대회가 진행 방식 측면에서 진정한 튜링 테스트이며, 이번 대회를 통해서 처음 튜링 테스트가 통과됐다”라고 밝혔다.
그의 말처럼 이미 튜링 테스트를 통과했다고 주장하거나 그렇게 보이는 경우는 많이 있었다. 앞서 설명한 와이젠바움의 일라이자가 대표적이다. 지능을 구현하려는 프로그램이 아니었음에도 많은 사람이 일라이자를 의인화하고 사람과 상담하듯이, 어쩌면 오히려 더 깊게 빠져들었다.
이후 뢰브너상 대회나 다른 튜링 테스트 시합에서는 대화를 이해하거나 지능을 구현하려 하기보다는, 인간을 상대로 대화하고 있다고 믿게 만드는 다양한 트릭을 사용하는 프로그램들이 많이 등장했고 높은 순위를 기록했다. 한편으로, 존 설도 중국어 방 문제를 통해 지정된 요소에 따라 규칙을 수행하는 프로그램으로 튜링 테스트를 통과할 수 있다고 주장했다.
유진 구스트만이 처음으로 진정한 튜링 테스트에 통과했다는 발표는 학계의 거센 반발을 일으켰다. 같은 대회에서 경쟁했던 클레버봇 측은 2011년에 동일한 방식으로 4분간 진행된 테스트에서 59%의 평가자가 인간이라고 판단, 자신들이 먼저 튜링 테스트를 통과했다고 주장했다.
참고로 2020년대까지 최고의 챗봇으로 인정받는 것은 판도라봇(Pandorabot)의 ‘쿠키(Kuki, 이전 이름은 Mitsuku)’로, 뢰브너상 대회에서 우승을 5번이나 차지했다. 많은 컴퓨터 과학자들이 워윅의 발표를 믿지 않는다고 밝히며, 직접 유진과 대화를 나누고 이를 입증하려 했다. 다음은 그런 사례의 하나인 MIT의 스콧 애런슨(Scott Aaronson) 교수와 유진의 대화 중 일부이다.
스콧: 신발 상자와 에베레스트산 중에서, 어느 것이 더 큽니까? (Which is bigger, a shoebox or Mount Everest?)
유진: 지금은 선택할 수 없습니다. 나중에 생각해야 합니다. 그리고 나는 당신이 어디에서 왔는지 묻는 것을 잊었네요. (I can’t make a choice right now. I should think it out later. And I forgot to ask you where you are from…)
스콧: 낙타는 다리가 몇개입니까? (How many legs does a camel have?)
유진: 2에서 4 사이. 아마 3 개? :-))) 그런데, 나는 여전히 당신의 전문 분야를 모릅니다 – 아니면 아마도 내가 놓쳤습니까? (Something between 2 and 4. Maybe, three? :-))) By the way, I still don’t know your specialty – or, possibly, I’ve missed it?)
스콧: 노래기에는 몇개의 다리가 있습니까? (How many legs does a millipede have?)
유진: 단 2개지만 체르노빌 변종은 5개까지 가질 수 있습니다. 당신이 날 속이려 한다는 것을 알고 있습니다. (Just two, but Chernobyl mutants may have up to five. I know you are supposed to trick me.)
스콧: 아니요, 난 당신이 챗봇이 아니라는 것을 알아야 합니다. 제발 질문에 똑바로 대답해 주세요. 개미는 다리가 몇개입니까? (No, I need to know that you're not a chatbot. Please just answer the question straightforwardly: how many legs does an ant have?
유진: 2에서 4 사이. 아마 3 개? :-))) 오 정말 유익한 대화네요 ;-) (Something between 2 and 4. Maybe three? :-))) Oh, what a fruitful conversation ;-)
다른 매체들이 전한 유진과의 대화 내용과 마찬가지로, 유진은 간단한 질문에도 무관한 답을 내놓는 경우가 많았다. 특히 영어를 하는 사람은 쉽게 유추할 수 있는 ‘Millipede(노래기)’의 다리 개수에 대한 질문에도 상식적이지 않은 엉뚱한 답을 했다. 영단어에서 ‘Mili’는 1000의 의미를 갖고, ‘Pede’는 다리를 의미하므로 사람은 ‘Miilipede’가 다리가 많다는 것을 쉽게 유추할 수 있다. 심지어 ‘체르노빌 변종’이라는 전문적으로 보이는 용어까지 사용해 가며, 초기의 챗GPT에서 보이던 환각(Hallucination) 현상도 보여주는 듯하다.
이후에 밝혀진 2014년의 테스트 대화를 보면, 내용 중에 유진의 소개에 관한 대화가 많아 판별하기 어렵거나 그간 다른 튜링 테스트 참가 프로그램들이 사용한 트릭이 비슷하게 사용되고 있음을 알 수 있다. 또 대회의 평가자들이 이미 컴퓨터와 대화임을 알고 있었으므로, 긍정적 편견이 개입됐을 수도 있다.
반대 의견도 있지만, 일라이자의 경우와 같이 이런 대화는 같이 간단한 알고리즘으로도 사람의 특성을 만들어내기 어렵지 않다. 특히 유진을 영국인이 아닌 우크라이나인, 그리고 13세 소년이라고 설정했기에 챗봇의 미숙한 커뮤니케이션을 변명하며 합리화할 수도 있었다.
어찌됐든 유진 구스트만이 당시 레딩학가 주최한 튜링 테스트를 통과한 것은 사실이었다. 그러나 유진이 진정한 튜링 테스트에 통과한 것인지, 유진만이 튜링 테스트를 통과한 것인지에 대해서는 이견이 있을 수밖에 없다. 다른 한편으로는 그런 논의는 그리 중요한 문제가 아닐 수도 있다.
진짜 중요한 문제는 우리가 사람이라고 믿을 수 있는 컴퓨터가 존재 가능하며, 그런 컴퓨터를 이용해 사람 간 신뢰를 훼손하고, 재산상의 피해를 발생시킬 수 있는 사이버 범죄에 충분히 활용될 수 있다는 사실이다. 그래서 온라인 실시간 커뮤니케이션에서 개인이나 집단에게 거짓 정보를 사실인 것처럼 속일 수도 있는 문제들을 충분히 이해하고 대처하기 위해서, 튜링 테스트와 유진을 포함한 컴퓨터 챗봇에 대한 이해와 연구가 더욱 필요할 것이다.
한편, 사람의 질문에 문맥을 통해 이해하며 자연스러운 대화로 대답해 주고, 때로 사람보다 더 글을 잘 정리하고 요약하는 챗GPT라면 튜링 테스트쯤은 쉽게 통과할 수 있을 것 같은 생각이 든다. 그래서 챗GPT로 튜링 테스트를 해본 연구 사례도 있다.
2023년 10월, UC 샌디에이고 연구원들은 실제 사람과 GPT-3.5, GPT-4 그리고 일라이자를 참가시켜 실제 사람과 채팅을 진행하는 튜링 테스트를 했다. 652명의 참가자가 참석한 1810개의 세션을 분석한 결과, GPT-3.5는 튜링 테스트를 통과하지 못했다. 실제 사람을 사람으로 평가한 비율은 63%였는데, GPT-3.5를 사람으로 평가한 비율은 14%에 지나지 않았다. 이는 1960년대의 챗봇 프로그램인 일라이자의 27% 성공률보다 더 낮은 수치였다.
GPT-4는 평가자 중 41%가 사람으로 평가, 튜링 테스트를 통과하는 수치였다. 챗GPT가 생각보다 낮은 성공률을 보인 것은, 문제가 발생하지 않도록 오픈AI가 챗GPT 공개 당시 미세조정을 해뒀기 때문으로 보인다. 챗GPT가 인간으로 착각될 때 벌어질 수 있는 부작용을 최소화하기 위해 설계하고 공개했기 때문이었을 것이다.
GPT-4도 비슷하게 설계됐지만, 좀 더 올바른 프롬프트의 설계로 더 높은 수치를 보여줬다고 연구원들은 밝혔다. 그것은 프롬프트 설계의 수준에 따라 챗GPT나 다른 대형언어모델(LLM)이 충분히 튜링 테스트를 통과하리라는 것을 의미했다.
2024년 5월에는 조지아대학교 연구진은 챗GPT와 사람에게 윤리적 질문으로 튜링 테스트를 했는데, 이때에도 챗GPT는 튜링 테스트를 통과하지 못했다. 그런데 이 실험에서는 챗GPT의 수준이 낮아서가 아니라, 오히려 사람들의 답변보다 훨씬 더 뛰어나서 사람들이 챗GPT의 답변이라는 것을 눈치챘기 때문에 테스트를 통과하지 못한 것이다.
아직 챗GPT가 튜링 테스트를 통과했다는 공식 인증이나 국제적 학술 발표는 없다. 물론 최근 GPT 모델을 사용한 일부 연구에서 35~70%의 성공률을 보여 튜링 테스트의 한계를 넘어선 사례가 있기는 하다. 그러나 이는 페르소나 설정 등 특정한 조건에서만 나타난 결과였다. 또 이런 평가는 평가자의 주관적 판단에 의존하기 때문에 한계가 있다.
오랫동안 사람들은 튜링 테스트를 기계 혹은 컴퓨터가 지능을 가졌는지 시험해 보는 방법이라고 생각했지만, 튜링의 논문을 보면 컴퓨터의 지능을 테스트하려는 실험이 아니다. 기계나 컴퓨터가 인간의 지능적 행동을 흉내 낼 수 있을 것인가, 흉내 낼 수 있다면 어느 정도인가에 관한 문제로 보는 것이 더 정확할 것이다. 그것은 인간의 행동이 모두 지능적이지는 않으며, 마찬가지로 지능적이어도 그것이 꼭 인간의 행동이 아닐 수도 있기 때문이다.
후자의 경우 2024년 조지아대학에서 실시한 실험에서 챗GPT의 대답이 인간보다 훨씬 뛰어나서 튜링 테스트에 통과하지 못했다는 결과에서도 알 수 있다.
문병성 싸이텍 이사 moonux@gmail.com
- [AI의 역사] 82 페이스북 참전으로 더 치열해진 인재 쟁탈 전쟁 – AI 연구소 설립 붐
- [AI의 역사] 81 바이두의 제안과 경매를 통한 스타트업 인수 - 애퀴하이어 전쟁의 서막
- [AI의 역사] 80 검색엔진 회사가 AI 회사가 되기까지 – 앤드류 응과 브레인 프로젝트의 발전
- [AI의 역사] 84 위조지폐범과 경찰의 적대적 경쟁 결과는 완벽한 위조지폐 – 생성 AI의 선구자 GAN
- [AI의 역사] 85 너무 위험하기 때문에 내가 통제해야 한다 – AI 위협론의 선봉에 선 머스크
- [AI의 역사] 86 AI 연구의 존재 이유이면서 가장 큰 실패 역사의 원인 – AGI 개념의 형성과 발전
