이미지 인식이 우선...정확도·저장능력·다국어·사용자 정의 등 특징

GPT-4가 이미지와 텍스트로 된 프롬프트에 대답하는 기능 시연 (사진=오픈AI)
GPT-4가 이미지와 텍스트로 된 프롬프트에 대답하는 기능 시연 (사진=오픈AI)

오픈AI가 14일(현지시간) 발표한 GPT-4는 직전 모델인 GPT-3.5와 어떻게 다를까. 미 기술매체 테크크런치와 뉴욕타임스 등 외신들은 이미지 인식 기능을 먼저 꼽았다. 

정확도가 개선된 점, 기억력(저장능력)이 향상된 점, 다국어 기능이 추가된 점, 사용자 정의가 가능해진 점도 지목했다. 농담을 더 잘하게 됐다는 평가도 나왔다. 오픈AI의 블로그와 외신을 종합해 5가지 달라진 점들을 정리한다.

■ 멀티모달
오픈AI의 대형언어모델(LLM)인 GPT-4는 텍스트만 인식하던 이전 모델과는 달리 이미지를 인식한다. 냉장고 안을 찍은 사진과 함께 '이 사진에서 보이는 재료들로 할 수 있는 요리를 알려줘'라고 명령하면 몇 가지 요리를 추천한다.

오픈AI는 이런 이미지 인식 기능이 추가된 데 따라 새 모델을 멀티모달(Multimodal)으로 규정했다. 멀티모달은 텍스트, 이미지, 오디오, 비디오 등 여러 양식(mode)에 반응하는 기능을 말한다. 

그러나 GPT-4는 이미지를 인식할 뿐 새로운 이미지를 생성해 내지는 못한다. 텍스트로만 답할 뿐이다. 냉장고 사진과 요리를 추천하라는 프롬프트에 대해 가능한 요리들을 이미지로 만들어 보여주지 못한다. 

따라서 멀티모달로 입력하고 출력하는, 완전한 의미의 멀티모달 모델은 아니다. 기대에는 못 미쳤지만, 언어 모델이 이미지를 인식하게 된 것은 주목할만한 진화다. GPT-4는 텍스트와 이미지를 섞어서 프롬프트로 입력해야 반응한다. 

프롬프트를 이미지로만 입력하는 방안은 현재 연구 중이며 일반에 공개하지 않는다고 오픈AI는 블로그에서 밝혔다. 또 이 연구는 시각 장애인을 위한 인공지능(AI) 앱인 ‘비 마이 아이(Be My Eye)’를 개발한 회사와 진행 중이라고 소개했다.

사용자의 농담을 받아치는 GPT-4 (사진=오픈AI)
사용자의 농담을 받아치는 GPT-4 (사진=오픈AI)

■ 정확도 개선
오픈AI는 새 모델이 잘못되거나 해로운 답변을 내놓을 가능성을 크게 줄였다고 밝혔다. 블로그에서 “허용되지 않는 콘텐츠에 대한 요청에 응답할 가능성이 82% 적고, 내부 평가에서 GPT-3.5보다 사실에 입각한 응답을 할 가능성이 40% 더 높았다”고 전했다.

지난 1~2년 동안 GPT 시리즈 이용자들이 남긴 악성 프롬프트를 학습한 결과로, 개발자의 지침에서 벗어나는 답변을 줄였다는 설명이다. 

오픈AI는 이와 함께 새 모델은 전제로부터 합리적 결론을 이끌어 내는 논증 능력도 향상됐으며 각종 시험에서의 성적도 이전 모델들보다 크게 오르는 등 성능이 개선됐다고 밝혔다.

■ 기억력 향상
GPT-3.5는 사용자와 주고받는 대화(입출력)를 최대 8000단어, 책의 4~5페이지 수준까지 기억했다. 새 모델은 이 기억용량이 6만4000단어 또는 50페이지로 늘어났다. 

GPT와 상호작용하는 채팅 인터페이스인 챗GPT는 대화가 4~5페이지를 넘기면 이전 내용을 기억하지 못했지만, 이제는 50페이지까지 기억할 수 있게 됐다는 의미다.

■ 다국어 기능
한국어를 포함해 26개 언어로 프롬프트를 입력할 수 있다. 영어를 다른 언어로 번역하는 정확도도 높아졌다. 한국어의 경우 정확도는 77% 정도라고 오픈AI는 블로그에서 밝혔다.

■ 사용자 정의 가능
새 모델에 대한 사용자의 통제력이 더 커졌다. GPT-4를 이용할 때 ‘시스템 메시지’를 통해 ‘사용자 정의’를 할 수 있게 됐다. 오픈AI는 이를 두고 '조종가능성(steerability)이 높아졌다'고 설명했다. 이 시스템 메시지 기능을 이용하면 수다스러운 챗GPT를 다른 스타일로 바꿀 수 있다. 

예를 들어 시스템 메시지로 '당신(GPT-4)은 소크라테스형 선생이다. 학생들이 생각하는 능력을 기르는 데 초점을 두고 대답한다'고 지시해둔다. 그러면 GPT-4와 상호작용하는 챗봇은 ‘3x+2y=7과 9x-4y=1의 선형 방정식 시스템을 어떻게 푸나요’라는 질문에 정답을 알려주는 대신 '두 방정식을 합하는 방법은 없을까요'라고 반문하며 사용자가 생각하도록 유도한다.

정병일 위원 jbi@aitimes.com

키워드 관련기사
  • 구글, 의료전문 LLM '메드-PaLM' 공개...헬스케어 AI 소개
  • 오픈AI, GPT-4 공개...MS '빙' 검색에 도입
  • MS, 이미지 생성하는 ‘비주얼 챗GPT’ 공개