(영상제작=AI타임스)
오픈AI의 대형언어모델(LLM)인 'GPT-4'가 품질 논란에 휩싸였습니다. 인공지능(AI) 개발자들이 이 모델에 대해 “게을러졌다”거나 “멍청해졌다”면서 불만을 제기하고 있습니다. 오픈AI 측은 이를 부인하면서 “오히려 더 똑똑해졌다”고 반박하고 있습니다.
GPT-4는 오픈AI가 지난 3월 발표한 최신 LLM으로 이전보다 성능이 뛰어난 모델로 인정받았습니다. 글뿐만 아니라 그림도 인식하는 최초의 ‘멀티모달’ 모델로, 명령을 입력하면 처리 속도는 좀 늦지만 정확한 답변을 내놓았습니다.
그런데 언제부터인가 속도는 빨라졌지만 잘못된 답변을 내놓는 비율이 높아졌고 추론 능력이나 입력 명령에 대한 이해가 떨어진다는 문제 제기가 온라인 개발자 포럼이나 트위터, 레딧 등에 올라오고 있습니다.
한 GPT-4 이용자는 이 모델이 “훌륭한 부주방장에서 식기 세척기로 바뀌었다”고 꼬집었고 한 개발자는 “페라리를 몰다가 고장 난 픽업 트럭을 모는 기분”이라고 불평했습니다. 이에 대해 피터 웰린더 오픈AI 제품 부사장은 트위터를 통해 "GPT-4를 바보로 만들지 않았을뿐더러, 이전 버전보다 더 똑똑하다"고 주장했습니다.
하지만 GPT-4의 품질이 지난 3월에 비해 확실히 떨어졌다는 연구결과까지 나왔습니다. 미 스탠포드대와 UC버클리대 연구팀이 함께 수학 문제 풀이와 코드 생성, 시각적 추론 등 4개 영역에서 GPT-3.5와 GPT-4의 3월 버전과 6월 버전 간의 차이를 시험했습니다. 그랬더니 GPT-4의 6월 버전은 전반적으로 기능이 떨어진 결과를 내놨습니다.
오픈AI는 이 문제의 원인에 대해 입을 닫고 있습니다. GPT-4 발표때부터 핵심 기술에 대해서는 공개하지 않아온 입장을 고수하고 있는 겁니다.
이에 업계 전문가들은 GPT-4에 '전문가 믹스(MOE, Mixture of Expert)'라는 방식이 적용됐을 것이라는 추측을 내놓고 있습니다. 이 방식은 큰 모델을 기반으로는 하지만, 물리나 화학, 생물 분야 등에 최적화한 하위 전문가 모델들 여러 개를 만들어 질문에 따라 구동하는 것입니다.
비유하자면 GPT-4라는 큰 배를 작업 때마다 출동시키는 것보다는 비슷한 기능을 가진 작은 배를 여럿 만들어 필요에 따라 출동시키는 겁니다. 한 대를 출동시킬 수도 있고 여러 대를 조합해 출동시킬 수도 있습니다.
이렇게 하면 작업 속도를 높이고 무엇보다 모델 운영 비용을 줄일 수 있기 때문에 오픈 AI가 이 방식을 쓰고 있는 것 아니냐는 추측이 나온 건데요.
오픈AI는 마이크로소프트(MS)로부터 지난 2019년부터 130억달러(약 16조6000억원)를 투자받았지만 지난해 5억4000만달러(약 7000억원)의 적자를 기록했습니다. 챗GPT 등 LLM을 구동하는데 그만큼 비용이 많이 들어가기 때문입니다.
따라서 비용 절감을 위해 ‘전문가 믹스’ 방식을 도입한 것으로 보이지만, 문제는 이 방식에서는 ‘속도와 품질’ 사이에 교환관계가 있다는 겁니다. 속도가 오르면 품질이 떨어지고 품질이 좋아지면 속도가 늦어지는 속성이 있다는 게 오렌 엣지오니 앨런 인공지능연구소 CEO의 설명입니다.
이 방식은 또 모델의 아키텍처를 다 바꾸는 것이기 때문에 GPT-4가 결국 다른 모델이 된 것으로 봐야하는 것 아니냐는 주장도 나옵니다.
이용자 입장에서는 GPT-4의 정체야 뭐가 됐든 품질 저하는 문제기 때문에, 오픈AI가 이에 대한 해법은 내놓아야 할 것으로 보입니다. 이어서 기술 동향 전해드립니다.
기술 동향
■ AI 기업들이 ‘알렉사’나 ‘시리’와 같은 가상 비서에 AI 기술을 접목해 일일이 지시하지 않아도 자율적으로 복잡한 과업을 수행하는 ‘자율 AI 도우미’ 개발에 나서고 있습니다. 로이터에 따르면 실리콘밸리의 스타트업 100곳 이상이 개발 중이고 투자회사들도 관심이 크답니다.
AI 개발의 초점이 LLM에서 '챗GPT'를 필두로 한 챗봇으로 이동했다가, 이제는 AI를 개인 비서처럼 활용하는 자율적인 도우미 개발로 옮겨가는 추세입니다.
■ AI 바이오 분야로 투자 자금이 몰리고 있습니다. AI 신약 개발 업체인 커절리가 6000만달러(약 760억원)의 투자를 유치했습니다. 엔비디아로부터 5000만달러(약 637억원)를 투자받은 리커전에 이어 모금에 성공했습니다.
설립 6년차를 맞은 커절리는 신약 개발과 테스트를 지원하는 생성 AI 플랫폼을 구축해 이미 세계 최대의 제약회사 12개를 포함해 의학 분야의 유명 기업들과 협업 중입니다.
■ 중국이 생성 AI에 대해 4월에 발표했던 초안보다 느슨한 규제를 선택했습니다. 24개 조항의 규제 지침을 발표했는데, 사회주의 이념 구현보다 자국 기업의 경쟁력 확보에 무게를 실었습니다.
미국과의 AI개발 경쟁을 염두에 두고 친 기업적인 규제로 돌아선 건데, 규제를 어기면 최고 10만위안(약 1775만원)의 벌금을 부과하고 문제 콘텐츠를 3개월 이내에 시정해야 한다는 규정은 아예 삭제했습니다.
■ 구글이 AI 챗봇 '바드'의 업데이트를 실시했습니다. 입력 언어를 아랍어와 힌디어 등을 포함해 40개 이상으로 확대했고 텍스트와 더불어 이미지 입력을 읽어내는 멀티모달 기능을 도입했습니다.
이미지는 '구글 렌즈'를 이용해 프롬프트 창에서 업로드할 수 있게 하는데요, 국내에서는 아직 이 기능을 쓸 수 없습니다. 이어서 업계 주요 소식 전해드립니다.
업계 동향
■ 한국과학기술원(KAIST)이 자연어 매뉴얼을 이해하고 이를 기반으로 비행기를 직접 조종할 수 있는 휴머노이드 파일럿 ‘파이봇(Pibot)’을 개발했습니다. 로봇이 조종석의 다양한 장치를 직접 조작해 비행한답니다.
따라서 기존 항공기의 자동비행장치나 무인 항공기와는 근본적인 차이가 있고 로봇이 전 세계 항공차트(Jeppson Chart)를 전부 기억해서 실수 없는 조종이 가능하다고 연구진은 밝혔습니다.
■ 메타가 멀티모달 이미지 생성 AI 모델 '카멜레온(CM3leon)'을 공개했습니다. 텍스트로 이미지를 생성하고 이미지를 텍스트로 설명하는 기능을 모두 수행합니다. 출시 시기는 언급하지 않았습니다.
카멜레온은 기존 이미지 생성 AI 모델에서 사용하는 ‘확산(Diffusion) 모델’ 대신 대형언어모델을 훈련할 때 쓰는 방식인 ‘마스킹된 토큰 모델링(masked token modeling)’이라는 사전 훈련 방식을 사용했습니다.
■ MS가 오픈AI의 'GPT-4' 모델을 장착한 워드, 엑셀 등 사무용 소프트웨어 'MS 365 코파일럿'의 이용료를 1인당 월 30달러(약 3만8000원)로 책정했습니다.
현재 ‘MS 365’는 등급에 따라 1인당 12.50달러(약 1만5800원)에서 57달러(약 7만2000원)의 이용료가 부과되는데 코파일럿 기능을 쓰면 여기에 30달러가 추가됩니다.
■ LG AI연구원과 특허청이 ‘특허 전용 초거대 AI 모델 구축을 위한 업무 협약’을 체결했습니다. 앞으로 문서의 검색과 분류 등 행정 서비스에 활용 가능한 ‘특허 전문가 AI’을 개발할 계획입니다.
이에 앞서 두 기관은 지난달부터 이 AI 구축을 위해 초거대 AI 언어 모델인 ‘엑사원 유니버스(EXAONE Universe)’가 학습할 특허 문서를 수집 및 가공하는 사전 준비 작업에 착수했습니다.
정병일 기자 jbi@aitimes.com
