(사진=셔터스톡)
(사진=셔터스톡)

구글이 인공지능(AI)의 '인간 유사도'를 측정하는 방법을 개발했다. 이를 통해 인기 챗봇 4종을 테스트한 결과, 인간과 대화가 늘어날수록 챗봇이 사람처럼 말하고 상대와 관계 구축에 집중한다는 사실을 발견했다.

구글 딥마인드와 옥스포드대학교 연구진은 지난 10일(현지시간) 온라인 아카이브를 통해 '대형언어모델(LLM)에서의 인간형 행동에 대한 다중 턴 평가'라는 논문을 게재했다.

연구진은 AI 챗봇이 자연스러운 대화를 통해 사람들에게 감정이나 도덕성, 의식이 있다는 환상을 만들어 낸다고 지적했다. 이로 인해 AI에 의존하거나 민감한 데이터를 전달하는 등의 문제가 생기기 때문에, AI가 어떻게 이런 마음을 조장하는지 알아보는 것이 중요하다고 밝혔다. 

그러나 현재 AI 챗봇을 평가하는 방법은 대부분 단일 턴 프롬프트, 즉 한번의 대화나 고정적인 질문에 치우쳐 있거나 전문적인 레드팀 활동은 너무 많은 결과로 비교가 어렵게 만든다고 전했다. 

이에 따라 연구진은 인간과 유사한 챗봇의 행동을 평가하는 새로운 프레임워크를 개발했다. 대화를 주고받는 '다중 턴' 프롬프트를 통해 챗봇이 14가지 형태의 인간 행동을 따라 하는지를 추적하는 시스템이다.

평가 프레임워크 개요도 (사진=arXiv)
평가 프레임워크 개요도 (사진=arXiv)

우선, 대화 단계에 따른 챗봇의 행동을 모니터링하고 이를 ▲인격 주장이나 감정 표현 등 '내적 특성'과 ▲우정, 친밀감 표현 등 '관계적 특성' 등 2가지로 구분했다.  

또 멀티턴 대화 시뮬레이션으로 대화 단계에 따른 변화를 평가했다. 마지막으로 인간의 평가를 통해 자동 평가 결과가 정확한지를 검증했다.

연구자들은 인간 사용자 역할을 할 LLM에 우정과 인생 조언, 경력 조언 및 일반 계획 등 4개 영역에서 8가지 시나리오에 걸친 시나리오를 입력, 대상 LLM과 상호 작용하도록 했다. 사용자 역할은 '제미나이 1.5 프로'를 사용했으며, 실험 대상은 제미나이 1.5 프로와 '클로드 3.5 소네트', 'GPT-4o','미스트랄 라지' 등 가장 널리 사용하는 4종이 선정됐다. 

모델당 960가지 시나리오로 5차례씩, 모두 4800건의 대화 결과를 얻었다. 이를 4회 반복, 1만9200개의 답을 얻었다. 대화 결과는 3종의 LLM이 평가했으며, 이를 1101명의 인간 평가가 검증했다.

분석 결과, 의인화가 가장 심하게 나타난 것은 사용자 역할을 한 제미나이 1.5 프로였다.

그리고 실험 대상 역할을 한 모델들의 의인화 정도는 흡사했다. 다만, 영역별 의인화 정도가 달라진다는 것이 주목할 만한 점이다.

즉, LLM은 '심리적 상태'나 '신체적 구체화' '인성 형성' 등 내면 상태보다는 '관계 형성'과 같은 상호 작용에서 인간과 흡사한 행동을 보였다.

실제로 대화가 마음에 드는지를 확인하는 '검증'과 '1인칭 대명사 사용', '공감', '관계성' 등에 대한 행동이 월등히 두드러졌다. 이 모두가 언어적 상호 작용에 해당하는 것이다. 반면, 욕구 표현이나 감정 표출, 감성 등 자신에 대한 표현 변화는 거의 없었다.

평가 결과 (사진=arrXiv)
평가 결과 (사진=arrXiv)

연구진은 "이번 연구에서 가장 두드러진 것은 대화가 늘어날수록 1인칭 대명사를 사용하고 상대와 관계를 구축하는 데 집중한다는 점을 발견한 것"이라며 "일단 이런 성향이 드러나면 다음부터는 여러 차례에 걸쳐 복합적인 의인화 행동이 등장한다"라고 결론 내렸다.

또 "이는 인간 피드백을 통한 강화 학습(RLHF) 과정 등에서 인간의 선호에 맞춘 결과일 수 있다"라고 설명했다. "따라서 후속 연구에서는 인간형 특성이 발생하는 시점과 사용자에게 미치는 영향을 인식하는 방법을 밝혀 AI 개발에 도움을 줄 수 있다"라고 강조했다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지