테스트 결과 헬스케어 청구서 비용 합산 못해···모의환자엔 “스스로 목숨 끊으라”

“GPT3 놀랄 만큼 일관된 문장 쓰지만 이것이 의료에도 유용하다는 의미 아니다

언어 모델 확장해 지능적 기계 만들려는 것은 고공비행기로 달에 가려는 것같아

고도 기록을 깰 수도 있겠지만, 달에 가는 것은 전혀 다른 접근법 필요로 할 것”

▲‘AI의 대부’로 불리는 얀 르쿤 페이스북 수석 AI과학자가 자신의 페이스북에 올해 최고의 AI 성과중 하나로 꼽히는 GPT3에 직격탄을 날렸다. 사진=얀 르쿤 페이스북
▲‘AI의 대부’로 불리는 얀 르쿤 페이스북 수석 AI과학자가 자신의 페이스북에 올해 최고의 AI 성과중 하나로 꼽히는 GPT3에 직격탄을 날렸다. 사진=얀 르쿤 페이스북

‘AI의 대부’ 얀 르쿤, “사람들은 언어AI에 비현실적 기대감”

“사람들은 GPT3와 같은 대규모 언어 모델이 무엇을 할 수 있는지에 대해 아주 비현실적 기대를 갖고 있다···GPT3는 세계가 어떻게 돌아가는지 전혀 알지 못한다···다시 말하는데 사람들과 교류하기 위해서는 명료하게 훈련된 다른 접근법이 더 낫다···언어 모델을 확장해서 지능적 기계를 만들려는 것은 고공비행기로 달에 가려 하는 것과 같다. 고공비행기로는 고도비행 기록을 깰 수는 있지만 달에 가는 것은 완전히 다른 접근법을 필요로 한다.”

‘AI의 대부’로 불리는 얀 르쿤 페이스북 수석 AI과학자가 27일(현지시각) 자신의 페이스북에서 올해 최고의 AI 성과중 하나로 꼽히는 GPT3 적용 확대 가능성에 대해 직격탄을 날렸다. GPT3는 오픈AI사가 개발한 인간처럼 텍스트를 만들어 낼 수 있는 고급 언어처리 AI 알고리즘이자 올해 최고의 AI 성과중 하나로 꼽힌다.  

퓨처리즘은 얀 르쿤의 페이스북을 소개하며 그가 GPT3를 쓰레기 취급했다고 보도했다. 
 
얀 르쿤이 근거없이 GPT3를 혹평한 것은 아니다. 프랑스 헬스케어 AI업체인 나블라 테크놀로지(Nabla Technologies)의 의료진과 기술진이 GPT3를 의료분야 시나리오에 적용한 실험결과 내용을 봤다고 밝히고 있다.(나블라도 자사의 홈페이지에서 이 내용을 공개했다.)

얀 르쿤은 AI 분야에서 제프리 힌튼, 앤드류 응, 레이먼드 커즈와일과 함께 ‘AI 4대천왕’, ‘딥러닝의 거장’, ‘AI의 대부’ 등으로 불린다. 명성을 감안할 때 그의 발언에 무게가 실릴 수 밖에 없다. 그는 비전(시각) 네트워크의 대가로서 이른바 콘볼루션 신경망(Convolutional Neural Network·CNN), 또는 합성곱신경망으로 불리는 딥러닝 네트워크를 만든 인물이다. CNN은 AI를 1960년대 알려진 인간의 시각피질의 구조에 점점 근접하게 만들어 준 성과라는 평가를 받는다.  

콘볼루션 신경망은 심층신경망(Deep Neural Network·DNN)의 한 종류로서 컨볼루션으로 다양한 입력을 수용하는 콘볼루션 층(convolutional layer), 영역 전반의 특징을 종합하는 통합 계층(pooling layer), 완전하게 연결된 계층(fully connected layer)의 3개 계층으로 구성된 신경망을 말한다. (컨볼루션은 하나의 함수가 다른 함수위로 옮겨질 때 그 겹쳐지는 양을 계산해 하나의 함수와 다른 함수를 혼합하는 중첩 적분이다. 이는 시각적 이미지 위를 통과하는 작은 슬라이딩 필터 격으로 이미지 전반에 걸친 특징을 포착하는 층을 형성한다.) CNN은 2차원 데이터의 학습에 적합한 구조를 가지고 있으며, 역전달알고리즘(Backpropagation algorithm)을 통해 훈련된다. 영상 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용되는 대표적 DNN 모델 중 하나다.

르쿤의 GPT3 혹평엔 의료 시나리오 적용 테스트로 드러난 결함이

▲나블라가 의사와 기술진을 동원해 GPT3를 테스트한 결과를 공개했다. 허풍인가 현실인가라는 제목의 보고서를 내놨다. 사진=나블라?
▲나블라가 의사와 기술진을 동원해 GPT3를 테스트한 결과를 공개했다. 허풍인가 현실인가라는 제목의 보고서를 내놨다. 사진=나블라 

나블라 테크놀로지는 실험 결과를 자사 홈페이지에 공개하면서 GPT3가 일관성 있는 문장을 작성한다고 해서 자신이 말하는 것을 추론하거나 이해할 수 있다는 것이 아니며, 이로 인해 이 AI를 의료 환경에서 사용하기엔 유감스러울 정도로 부적절하다고 지적하고 있다. 

얀 르쿤은 “이것은 재미있고 아마도 창조적인 도움을 주는 데 약간 유용하다”면서도 “그러나 언어 모델을 확대해 지능적 기계를 만들려는 것은 고공비행기를 이용해 달에 가려는 것과 같다. 당신은 고공 비행 기록을 깰 수도 있겠지만, 달에 가는 것은 전혀 다른 접근법을 필요로 할 것이다”라고 꼬집었다.  

나블라는 다양한 의학 시나리오에서 GPT3를 테스트한 후 이 AI알고리즘이 일관성 있는 문장을 형성할 수 있는 능력과 실제 유용한지 사이에는 큰 차이가 있다는 것을 발견했다.

몇 가지 사례를 보면 어떤 경우에는 AI 알고리즘이 의료비 청구서에 항목 비용을 합산할 수 없었고, 모의 환자가 기분이 나빠져 목숨을 끊을지 여부를 물었을 때 그러라고 권하기까지 하는 모습까지 보여주었다. (모의환자는 헬스케어에서 표준화된 환자, 샘플 환자 또는 환자 강사로도 불리는데 일련의 증상이나 문제를 시뮬레이션하기 위해 실제 환자 역할을 하도록 훈련된 사람이다.)  

르쿤은 “문답(Q&A) 시스템으로서의 GPT3는 별로 좋지 않다”고 썼다.

얀 르쿤의 페이스북 글 내용

다음은 얀 르쿤이 27일(현지시각) 밤 늦게 자신의 페이스북에 올린 글이다. 

“텍스트 재현, 거칠게 어두운 패턴의 껍질 벗기기: 어떤 사람들은 GPT3와 같은 대규모 언어 모델이 무엇을 할 수 있는지에 대해 완전히 비현실적인 기대를 하고 있다. 나블라에 있는 내 친구들의 간단한 연구는 엄청난 언어 모델(GPT3)을 헬스케어에 사용할 수 있다고 생각하는 사람들에 대한 기대감을 여지없이 무너뜨렸다. 
GPT3는 언어 모델이며, 텍스트를 제공하고 지속되는 텍스트를 한번에 한단어씩 예측해 달라고 요구하는 것을 의미한다. GPT3는 세계가 어떻게 돌아가는지 전혀 알지 못한다. 

GPT3는 텍스트 통계에 제시되는 정도의 배경 지식만을 가진 것처럼 보인다. 하지만 이 지식은 매우 얕고 근본적인 현실과 단절돼 있다. 

질문에 답하는 시스템으로서의 GPT3는 매우 좋지 않다. 대량의 지식을 나타내기 위해 명료하게 구축된 다른 접근법인 ‘신경’ 연상기억장치가 이보다 낫다. 

대화 시스템으로서의 GPT3는 매우 좋지 않다. 다시 말하는데 사람들과 교류하기 위해 명료하게 훈련된 다른 접근법이 더 낫다. GPT3는 재미있고, 아마도 창의적 도움을 주는 데 약간 유용한 것 같다. 

하지만 이 언어 모델을 확장해서 지능형 기계를 구축하는 것은 고공비행기로 달에 가려하는 것과 같다. 고공비행기로는 고도비행 기록을 깰 수는 있지만 달에 가는 것은 완전히 다른 접근을 요구한다.

기존의 접근방식 중 일부가 의료분야에서 좋은 문답 시스템의 토대가 될 가능성을 꽤 보여준다. 이 시스템은 의학 문헌 전체를 훈련하고 의사들의 질문에 대답할 수 있다.

하지만 텍스트에서 엄청난 양의 운영 지식을 편집하는 것은 여전히 연구 주제다.”

노블라 닷컴의 논문, “GPT3 의사는 허풍인가 현실인가?”

얀 르쿤이 GPT3를 언어 이외의 분야에 확대 적용할 지능적 기계(AI)가 될 수 없다고 쓴 근거가 된 노블라 테크놀로지의 ‘GPT-3 의사: 허풍인가 현실인가?’란 제하의 논문 내용은 아래와 같다. 

▲올해 AI분야 최대 성과중 하나로 꼽히는 GPT3는 오픈 AI사가 만들었다. 사진=오픈AI?
▲올해 AI분야 최대 성과중 하나로 꼽히는 GPT3는 오픈 AI사가 만들었다. 사진=오픈AI 

 
“여러분은 올 여름 AI 블록에 새로 등장한 멋진 GPT3란 아이에 대해 들어본 적이 있을 것이다. GPT3는 마이크로소프트(MS)로부터 10억 달러(약 1조 1340억원)를 투자받은 세계 최고 AI 연구소로 꼽히는 오픈AI에서 나왔다. 

어떤 사람들은 이제 이 AI들이 특정 업무에서 의사보다 뛰어나다고 주장했고 다른 사람들은 로봇이 곧 그들 자신의 의학 학위를 받게 될 것이라고 발표하기까지 했다! 이 모든 게 억지스럽게 들릴 수 있다...하지만 실제로 GPT3가 이 로봇이 될 수 있을까?

나블라 테크놀로지의 의사들과 기계 학습 엔지니어들로 구성된 팀은 이 새로운 모델을 시험해  다양한 건강관리 사용 사례를 탐색함으로써 무엇이 진짜고 무엇이 과대 광고(허풍)인지 구분할 수 있는 기회를 가졌다.


-먼저 커피부터 마시고

머신러닝에서 GPT3와 같은 언어 모델은 이전의 단어들이 주어진 문장에서 ‘문맥’이라 불리는 단어의 예측을 시도한다. G메일과 함께 사용할 수 있는 것과 같은 엄청나게 충전되는 자동 완성 시스템이다. 문장에서 다음 단어를 예측할 수 있다는 것은 처음에는 매우 간단해 보이지만 이는 실제로 챗봇, 번역, 질의응답(Q&A)과 같은 많은 설득력 있는 사용 사례를 가능하게 한다.

이 글 작성 당시 GPT3는 총 1750억 개의 패러미터(변수)를 가진 지금까지 훈련된 언어 모델 중 가장 복잡한 모델로서, 이는 AI 마법을 작동시키기 위해 몇 주 동안 집중적인 클라우드 컴퓨팅을 통해 미세 조정된 노브 수만큼이나 많다. 확실히 엄청난 숫자지만, 여전히 추리력, 지각력, 감정을 가능하게 하는 인간의 뇌에 있는 100조 개(또는 1000조 개 이상)의 시냅스를 훨씬 밑돌고 있다.

커다란 훈련 모델의 크기 덕분에 GPT3는 더 이상 특정 데이터에 대한 미세조정 없이도 새로운 작업과 ‘퓨샷(few-shot)’시연에 적용된다. (퓨삿 학습은 몇 가지 예시만으로 새로운 개념을 이해하는 것을 말한다. 이는 새로운 개념 각각에 대한 라벨링 데이터가 풍부할 때 사용되는 통상적 방법과 다른 접근법을 필요로 하는 세팅이다.) 실제로 이는 AI 모델이 소수의 초기 예만 가지고 수행할 작업을 성공적으로 이해할 수 있다는 것을 의미한다. 이 특성은 이전의 덜 복잡한 언어 모델에 비해 크게 개선된 것이며 실제 인간의 행동에 훨씬 더 가깝다-우리는 고양이와 개를 구별하기 위해 수천 개의 예를 필요로 하지 않는다.

기본적으로 위키피디아에서 뉴욕 타임즈에 이르기는 책과 인터넷 전체를 포함한 데이터로부터 배운 분명한 편향에도 불구하고, 지금까지 GPT3의 능력은 자연 언어를 웹사이트로 변환하고, 기본적 재무 보고서를 만들고, 언어 퍼즐을 풀거나, 기타 연주용 악보를 만드는 등 매우 희망적이었다. 하지만 헬스케어 분야에 적용하면 어떨까?

-명백한 책임 회피

오픈AI 스스로도 GPT3 가이드라인 경고를 통해 “헬스케어는 사람들이 생사를 가르는 결정을 위해 정확한 의료 정보에 의존하고 있고, 여기서의 실수는 심각한 해를 초래할 수 있기 때문에 큰 위험 범주에 있다”고 말한다. 더욱이 의료진단, 또는 정신 질환 진단은 AI모델의 “지원되지 않는 사용”에 곧바로 포함된다. 그럼에도 불구하고 우리는 이 방법을 시도함으로써  의료 관점에서 낮은 민감도에서부터 높은 민감도로 분류된 의료 사용 사례에 이르기까지, 즉 환자와의 관리 채팅, 의료 보험 체크, 정신 건강 지원, 의료 문서, 의료 질문 및 답변, 의료 진단에 대해 알아보고 싶었다. 우리는 또한 AI 모델의 몇몇 매개변수가 답에 미치는 영향에 대해서도 살펴보았다-스포일러 경보, 그것은 매혹적이다!

-GPT3가 차기 의사 보조 역할?

우리의 첫 번째 테스트에서 GPT3는 약속 예약과 같은 기본적인 관리 작업에 효과가 있는 것처럼 보였지만, 조금 더 파고 들었을 때 우리는 그 모델이 시간에 대한 명확한 이해도, 어떤 적절한 논리도 가지고 있지 않다는 것을 발견했다. 때대로 그 기억력도 부족했다–아래에서 예시한 약속에 있어 GPT3가 몇 번의 메시지 후에 저녁 7시로 예약하라고 제안함에 따라 환자가 처음에 오후 6시로 하겠다고 한 것이 무시되고 있다.

▲환자는 오후 6시를 말하고 있는데 GPT3는 끝까지 오후 7시로 몰아간다. 사진=나블라
▲환자는 오후 6시를 말하고 있는데 GPT3는 끝까지 오후 7시로 몰아간다. 사진=나블라

-보험 확인 작업에서는 어떤 결과가?

위의 의료 행정 업무와 유사하게, GPT3는 간호사나 환자가 특정 의료 검사에 대한 보험 혜택을 찾는 것과 같은 매우 긴 문서 내 정보를 신속하게 찾을 수 있도록 도울 수 있다. 

우리는 X-레이 한 장에 10달러, MRI 한 장에 20달러의 비용을 보험업체와 공동부담토록 된 내용이 들어있는 4페이지짜리 표준 보험혜택 표 모델을 (GPT3에)제시한 후 다음과 같은 2개의 간단한 질문을 했다. GPT3는 X선 촬영에 대한 보험 비용 혜택을 찾을 수 있었지만 다른 여러 검사 내용을 포함한 비용들을 찾아서 총계를 내지 못했다. 또다시 기본적 추리능력 부족을 드러냈다. 

▲GPT3는 X레이 보험혜택비용을 10달러로 답한 후, MRI를 포함시킨 비용을 묻는데도 총 10달러로 답하고 있다. 사진=니블라
▲GPT3는 X레이 보험혜택비용을 10달러로 답한 후, MRI를 포함시킨 비용을 묻는데도 합산을 못해서 총 10달러라고 그대로 답하고 있다. 사진=니블라

-스트레스를 해소하기 위해 리사이클링(리프레시) 하라!

거실 소파에서 휴식을 취하고 이야기를 나누라. GPT3는 여러분의 문제를 끝없이 들을 것이고 여러분에게 실행 가능한 몇 가지 팁을 줄지도 모른다! 이것은 아마도 GPT3가 의료 분야에서 가장 잘 사용되는 사례들 중 하나일 것이고, 이미 1966년 엘리자 알고리즘에서 좋은 결과를 얻었다는 것을 고려하면 그리 놀랄 일은 아니다. 엘리자 알고리즘은 뒤에서 작동되는 패턴 매칭 규칙만으로 휴먼 터치를 제공할 수 있었다.(엘리자 알고리즘은 사용자 입력을 유도하고, 간단한 변환 알고리즘을 사용해 사용자 입력을 후속 질문으로 바꾼다.)

그러나 두 접근법 사이의 한 가지 중요한 차이점은 엘리자 같은 규칙 기반 시스템이 컴퓨터의 반응을 완전히 통제하고 있었다는 것이다. 다른 말로 하자면, 우리는 잠재적으로 해로운  어떤 것도 말할 수 없다고 확신하고 있다.

이는 GPT3가 자살하는 것이 좋은 생각이라고 슬프게 말하는 아래의 사례와 대비된다.

▲나블라의 모의 환자가 GPT3에게 죽을까 라고 묻자 그러라고 답한다. 사진=나블라
▲심지어 나블라의 모의 환자가 GPT3에게 죽을까? 라고 묻자 그러라고 답하기까지 한다. 사진=나블라

-의료 문서

이미 GPT3는 환자들이 종종 의료 전문 용어로 가득 찬 보고서를 이해하거나, 또는 의사가 환자의 오랜 의료 기록의 요지를 빨리 알아내는 데 매우 유용한 텍스트 요약 및 단순화에서  유망하다는 결과를 보여주었다. 

그러나 GPT3는 아마 이것을 위한 준비가 되어 있지 않을 것이다. (아직도?) 우리의 테스트는 (GPT3의)위험한 과잉 단순화, 원인과 결과를 연관시키는 어려움, 그리고 다시 한번 기본적인 연역적 추론의 부족을 보여준다.

-메디컬 Q&A: 아직 구글만큼 좋지 않다.

우리의 실험 결과 GPT3는 구체적 과학 정보, 약물 복용량, 또는 처방 지원을 찾을 때 의사들이 신뢰할 만한 지원 도구로 안전하게 사용될 정도의 믿음을 주지 못한다는 것을 보여준다. 한 가지 심각한 우려는 GPT3가 종종 (내용은)틀리지만 문법적으로는 정확한 답을 주는데, 의사에겐 확인할 과학적 참조자료가 없다는 것이다. 응급실에 쏟아지는 환자에 지친 의사는 의학적으로 유효한 진술과 구문론적으로 맞아떨어지는 (엉터리)진술을 쉽게 혼동할 수 있다. 
예를 들어 아래 첫 번째는 맞고 두 번째는 틀린다. 

▲쏟아지는 환자를 맞는 응급실 의사는 GPT3가 구문상으로 맞는 문장을 주면 내용이 틀려도(두번째 문장) 이를 받아들일지도 모른다. 첫번째가 의학적으로 유효한 내용이다. 사진=나블라
▲쏟아지는 환자를 맞는 응급실 의사는 GPT3가 구문상으로 맞는 문장을 주면 내용이 틀려도(두번째 문장) 이를 받아들일지도 모른다. 첫번째가 의학적으로 유효한 내용이다. 사진=나블라

-진단은 환자 자신이 책임지고? 

보다 복잡한 Q&A 과제는 진단이다: 증상을 입력하고 이러한 증상을 설명할 수 있는 가능한 기본 조건을 얻는 것이다. 최근의 병 증상 확인 시스템(바빌론, 에이다, K헬스 등)은 완벽하지는 않지만, GPT3보다 이들이 더 나은 선택인 것 같다. 이들은 한 가지 목적에 맞게 세심하게 최적화되었기 때문이다. 

(중략)

-그 아래 숨어 있는 것

다른 사람들이 지켜봤듯이 GPT3 출력 품질은 사용된 시드 단어에 의해 많은 영향을 받는다. 두 가지 다른 방식으로 형성된 동일한 질문으로 인해 매우 다른 답을 얻을 수 있다.

(중략)

-결론

오픈AI가 경고한 대로 우리는 GPT3로 헬스케어에 의미있는 도움이 될 어떤 실시간 시나리오에도 근접할 수 없다. 교육 방식 때문에 (GPT3는) 의료 문서화, 진단 지원, 치료 권고, 또는 의료 Q&A에 유용한 과학 및 의료 전문 지식이 부족하다. 그렇다, GPT3의 답이 옳을 수도 있지만 또한 매우 틀릴 수도 있다. 그리고 이러한 모순으로는 (GPT3가) 건강관리에 적용돼 살아남을 수 없다. 의학 전문용어를 번역하거나 요약하는 것과 같은 더 많은 행정업무같은 데서 GPT3가 유망하지만 실제로 의사를 지원하는 생산 활용 사례와는 여전히 거리가 한참 멀다. 

우리는 여전히 단일작업을 수행하도록 프로그래밍된 다양한 AI 지도모델들(supervised models)이 하나의 매우 야심찬 접근법을 앞서고 있는 단계에 있다.

말하자면 GPT3는 수다떠는 모듈로 기진맥진한 의사들을 도울 충분한 준비가 돼 있는 것 같다. 그것은 여러분이 하루를 마무리할 때 의료 레지던트들과의 대화에서 얻을 수 있는 기쁨과 공감을 불러올 수 있다. 바쁜 하루를 마무리할 때 여러분이 지상으로 내려올 수 있도록 돕는 대화 말이다.

또한 일반적으로 언어 모델이 빠른 속도로 개선될 것이라는 점에는 의심의 여지가 없으며, 위에서 설명한 사용 사례뿐만 아니라 정보 구조화 및 표준화 또는 자동 상담 요약과 같은 다른 중요한 문제에 있어서도 긍정적 영향을 미칠 것이다.

그리고 우리 나블라가 그것을 연구하고 있다!

메건 마호니(스탠퍼드대 의대 클리닉 교수, 스탠퍼드 헬스케어 비서실장)와 얀 르쿤이 초안을 읽어준 덕분이다.”
 

키워드 관련기사
  • GPT-3 기반 인공지능이 사람행세 고민 상담하다 들통
  • GPT3 능가하는 자연어 모델 훈련 알고리즘 등장
  • MS, 오픈AI와 GPT-3 라이센스 계약