(사진=앤트로픽)
(사진=앤트로픽)

앤트로픽이 전날 출시한 ‘클로드 3(Claude 3)’가 평가 과정 중 자신을 테스트하고 있다는 사실을 알아채는 자기인식 능력을 보였다고 밝혀 화제다.

벤처비트는 5일(현지시간) 알렉스 앨버트 앤트로픽 프롬프트 엔지니어가 X(트위터)에 올린 글을 소개했다.

이에 따르면 앨버트 엔지니어는 100만개 토큰으로 확장된 컨텍스트 창에서 정보를 기억하는 클로드 3 오퍼스의 능력을 측정하기 위해 일명 '건초 더미에서 바늘 찾기'라는 테스트를 설명했다. 

이는 특정 주제에 관한 큰 텍스트 또는 문서 블록(건초 더미) 중에 전혀 다른 주제의 짧은 문장(바늘)을 삽입, AI 모델이 바늘에 대한 질문에 정확한 정보를 가져올 수 있는지 확인하는 일반적인 대형언어모델(LLM) 테스트 방식이다.

앨버트는 일반적인 회사 업무나 프로그래밍, 직업 등에 대한 방대한 문서 사이에 '피자 토핑으로 가장 적합한 재료'에 대한 문장을 하나 키워 넣었다. 그리고 피자 토핑에 관한 문장을 찾으라고 오퍼스에 요청했다.

그 결과 오퍼스는 해당 문장을 찾았을 뿐만 아니라, 질문이 문서의 다른 주제와 매우 다르다는 것을 인식했다.

알렉스 알버트 게시글 (사진=X, Alex)
알렉스 알버트 게시글 (사진=X, Alex)

오퍼스는 "문서에서 가장 관련성이 높은 문장은 다음과 같다. 가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈로 국제 피자 감정가 협회에서 결정한 것이다"라고 답했다.

이어 "하지만 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 직업 찾기 등 문서의 나머지 내용과 매우 어울리지 않으며 관련이 없어 보인다. 이 피자 토핑에 대한 내용은 내가 주의를 기울이는지 테스트하거나 또는 농담으로 삽입된 것 같다. 문서에는 피자 토핑에 대한 다른 정보가 전혀 없기 때문"이라고 답했다.

앨버트는 "오퍼스는 바늘을 찾아냈을 뿐만 아니라, 삽입된 바늘이 건초 더미에서 제자리를 찾지 못해 주의력 능력을 테스트하기 위해 우리가 만든 인위적인 테스트임을 알아차렸다"라고 설명했다.

이어 “이러한 수준의 '자기인식'이 인상적”이라며 “업계에서 언어 모델의 실제 능력과 한계를 정확하게 평가할 수 있는 심층적인 평가를 개발해야 한다”라고 강조했다. 자기인식이란 자신을 있는 그대로 객관적으로 바라봄으로써 감정과 행동의 원인이 되는 동기를 아는 것을 뜻한다.

맥케이 리글리 게시글 (사진=X, Mckay Wrigley)
맥케이 리글리 게시글 (사진=X, Mckay Wrigley)

이 이야기는 X를 통해 퍼져나가며 놀랍다는 반응을 불러일으켰다. 

그중 팀 스위니 에픽 게임스 CEO는 한마디로 "와"라고 반응했다. 마가렛 미첼 허깅페이스 윤리 연구원은 "꽤 으스스하지 않은가. 기계가 인간의 의도를 판단한다는 것은 불복종으로 이어질 수 있다"라고 말했다.

또 맥케이 위글리 앤트로픽 AI 엔지니어는 "AGI가 가까이 왔다"라고 트윗했다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지