(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI)은 농담을 잘 못하며, 그 이유가 작동 원리 그 자체 때문이라는 분석 결과가 나왔다. AI를 창의적인 작업 지원에 사용하는 사람들에게도 힌트가 되는 흥미로운 발견이라는 평이다.

MIT 테크놀로지 리뷰는 17일(현지시간) 구글 딥마인드 연구진이 미국 코미디언 20명과 AI로 농담을 생성하는 테스트를 실시, 공정성, 책임 및 투명성에 관한 ACM(ACM FAccT) 컨퍼런스에서 연구 결과를 발표했다고 소개했다.

이에 따르면 구글 연구진은 오픈AI의 '챗GPT'나 구글의 '제미나이' 등을 사용한 경험이 있는 코미디언 20명에게 AI로 코미디 자료를 작성할 것을 요구했다. 연구진 역시 여가 시간에 즉흥 코미디언으로 활동하는 피오트르 미로프스키 구글 연구원이 주도했다.

그 결과는 그리 인상적이지 않았던 것으로 나타났다. AI는 농담을 생성해 냈지만, 독창적이거나 자극적이거나 매우 인상적으로 재미있는 자료를 만들지는 못했다.

평판을 위해 익명을 요구한 코미디언들은 결과가 그리 자랑스럽지는 않다고 입을 모았다.

이들은 AI의 농담이 단조롭고 일반적이며 지루하다고 묘사했다. 한 참가자는 이를 "1950년대 코미디"에  비교했다. 다른 코미디언은 “아무리 좋게 봐줘도 협소하고 뻔한 접근 방식”이라고 말했다.

다만 일부는 AI가 무엇이든 빠르게 출력하기 때문에 "빈 페이지를 채우는 데 유용하다"라고 말했다. 또 구성 능력에서 인상적인 모습이 가끔 나왔다는 답변도 나왔다.

사실 챗GPT가 농담을 잘 못하고, 그나마 아재 개그에 가까운 것만 출력한다는 연구는 1년 전인 지난 6월에도 등장했다. 하지만 그동안 대형언어모델(LLM)의 엄청난 성능 향상을 고려하면, 한계가 있다는 것을 확인한 셈이다.

연구진은 LLM이 인간 창의성을 모방하는 데 점점 더 능숙해지고 있지만, 그렇다고 실제로 창의적이라는 의미는 아니라고 지적했다.

특히 오픈AI나 구글 등은 폭력적이거나 인종차별적인 대답을 방지하기 위해 가드레일을 적용한다. 이는 코미디에서 자주 사용하는 공격적이거나 성적인 내용, 비아냥 등의 요소 생성을 방해한다. 또 학습에 사용한 데이터도 누구나 납득할 만한 안전한 콘텐츠를 사용한다.

미로프스키 연구원은 "모든 사람의 비위에 맞춘 무언가를 만든다면, 결국 누구도 특별하게 좋아하는 것이 될 가능성은 없다"라고 말했다.

그러나 LLM이 재미있는 응답을 생성하지 못하게 하는 것은 가드레일과 훈련 문제만은 아니라는 지적이 나왔다.

이번 연구에 참여하지 않은 투힌 차크라바티 컬럼비아대학교 컴퓨터 과학 연구자는 유머의 대부분이 놀랍고 부조화에 의존하고 있으며 이는 AI 모델의 작동 방식과 상충한다고 말했다. 즉, 창의적인 글쓰기는 표준에서 벗어나야 하는데, LLM은 사람을 모방할 수만 있다는 말이다.

“코미디나 좋은 글은 기승전결식의 구조를 가지는 경우가 많다. 하지만 LLM은 한번에 하나의 단어를 예측하도록 설계됐기 때문에 이를 해결하는 데 어려움을 겪는다"라며 “나도 AI가 재미있거나 놀랍거나 흥미롭거나 창의적으로 만들기 위해 내 연구에서 많은 노력을 했지만, 제대로 작동하지 않았다”라고 밝혔다.

이번 결과로 AI를 활용하는 코미디언은 빠르게 작업할 수는 있지만, 독창적인 것을 만들지는 못할 것이라는 분석이다.

연구진은 “사람들은 대본이나 각본, 광고를 작성하는 데 AI 도구를 사용할 것으로 생각한다"라며 “그러나 창의적이고 코믹한 글쓰기는 알고리즘이 아니라, 이를 보고 판단하는 사람의 경험과 느낌에서 나온다”라고 결론 내렸다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지