[7월18일] 9.11이 9.9보다 큰가요?...커뮤니티를 달군 LLM의 수학 실력

AI타임스
입력 2024.07.19 09:00
댓글 0

이 기사를 공유합니다

인공지능(AI)의 큰 약점 중 하나가 수학이라는 점은 잘 알려진 사실입니다. 일부 연구자들은 트랜스포머 기반 모델이 아무리 커지더라도 일부 작업은 수행하기 여전히 어려울 수 있다고 지적하고 있습니다.

2022년 맥아더 펠로우십을 수상한 최예진 워싱턴대학교 컴퓨터공학과 교수는 일부 대형언어모델(LLM)이 두개의 세자릿수를 곱하는 데 어려움을 겪는다며, 아무리 큰 매개변수 모델이라고 해도 일부 분야에서는 성능이 미치지 않는다고 지적한 바 있습니다.

18일에는 LLM의 수학 실력에 관한 뉴스가 두개 전해졌습니다.

먼저 미국의 커뮤니티 사이트 레딧에서는 난데없는 토론이 펼쳐졌습니다. 한 사용자가 "라마 3는 다른 LLM보다 약간 '느린' 것 같다"라며 사진을 올린 게 발단입니다.

여기에는 "9.11이 9.9보다 큰가요"라는 질문에, 라마 3가 "네, 9.11은 9.9보다 큽니다"라고 답하는 장면이 담겨 있습니다. 이를 두고 여러 사용자가 등장, 분석을 시작했습니다.

이 중 가장 잘 설명된 글은 "텍스트가 토큰화되는 방식의 결과"라는 것입니다. 즉 "9.11의 소수점 뒤 11은 하나의 토큰으로 처리되고, 9.9의 9도 하나의 토큰으로 처리된다. 11 > 9, 따라서 모델은 바로 이 함정에 빠진다"라는 내용입니다.

다른 모델에 대한 테스트 결과도 잇달았습니다. 한 사용자는 'GPT-4o'에 같은 질문을 해서, 정답을 얻었다고 밝혔습니다. 특히 GPT-4o가 "언뜻 보기에는 9.11이 더 커 보일 수 있지만, 9.11은 9.110과 동일하고 이는 9.900보다 작다"라는 설명을 내놓았다고 덧붙였습니다.

중국의 대표적인 오픈 소스 모델인 '큐원2'는 매개변수에 따라 정답이 엇갈렸다고 합니다. 1.5B 모델은 둘 다 같다고 답했지만, 7B는 정답을 맞혔다는 겁니다.

질문에 문제가 있다는 말도 등장했습니다. 맥락 없이 숫자를 제시하면, 모델이 이를 버전 숫자로 착각할 수 있다는 겁니다. 실제로 9.11 버전은 9.9 버전보다 나중에 나온, 더 큰 버전입니다.

또 한 사용자는 챗GPT에 "정답이 맞느냐"라고 계속 추궁하자, 질문할 때마다 답을 뒤집었다고 밝혔습니다.

결국 마크테크포스트는 이 문제를 확인하기 위해 실험을 했고, 그 결과 라마 3를 제외한 GPT-4o와 '클로드 3.5 소네트', '제미나이 1.5 프로'는 모두 정답을 맞혔다고 소개했습니다.

이날 프랑스의 미스트랄 AI는 수학적 추론과 과학적 발견에 특화된 '매스트럴(Mathstral) 7B' 모델을 출시했다고 발표했습니다. 또 지난주에는 오픈AI가 수학적 추론에서 큰 발전을 보인 '스트로베리'라는 모델을 개발했다고 전해졌습니다.

사람들은 챗봇의 환각이나 실수를 보고 즐기는 경향이 있지만, 수학 문제만큼은 그러지 않기를 바랍니다. 이런 문제는 너무 치명적이라, AI에 대한 신뢰를 크게 떨어뜨릴 수 있기 때문입니다.

이어 주요 이슈입니다.

■ "AI 개발·서비스 가능한 공개 데이터는 '정당한 이익' 필요"

■ 실리콘 밸리서 트럼프 지지 선언 잇달아

피격 사건 이후 트럼프에 대한 실리콘 밸리의 지지와 선거 자금 기부가 이어지고 있습니다. 부통령 후보는 벤처 캐피털리스트 출신입니다. 그가 당선될 경우, AI와 기술 업계도 큰 변화가 예상됩니다.

■ 테슬라, 대량 해고 이후 폭풍 채용...AI·로봇 회사로 본격 전환

테슬라가 AI와 로봇 분야 인재 영입에 나섰다는 소식입니다. 전기차 대신 이 분야를 주력으로 내세우겠다는 머스크의 의지입니다.

AI타임스 news@aitimes.com