"대형언어모델(LLM)은 확률적 정보에 따라 방대한 훈련 데이터에서 관찰한 언어 형식의 시퀀스를 우연히 꿰맞추는 시스템이다. 의미를 되새길 필요없는 확률론적 앵무새(Stochastic Parrots)다."
구글 윤리위원들이 2년 전 내놓았던 '확률론적 앵무새론'이 재조명되고 있다. 잘못된 답을 그럴듯하게 내놓는 LLM이 촉발했다.
테크크런치는 'GPT-4'와 같은 LLM의 위험이 제기되면서 팀닛 게브루와 마가렛 미첼 등 구글 전 윤리워원들이 에밀리 벤더 워싱턴대학교 교수 및 안젤리나 맥밀런-메이저 전산언어학 박사 등과 지난 2021년 3월 발표한 연구 논문 '확률론적 앵무새의 위험'이 재조명되고 있다고 20일(현지시간) 소개했다.
이들은 논문에서 LLM의 위험을 완화하기 위해 웹에서 무차별적으로 데이터를 수집하는 대신 데이터셋을 골라내고 신중하게 문서화할 것을 권장했다.
이 논문은 당시 큰 반향을 일으켰지만 게브루와 미첼은 구글에서 해고됐다. 구글은 이를 무시했고, 최근 GPT-4를 공개한 오픈AI는 어떤 데이터로 학습했는지조차 공개하지 않았다.
하지만 논문 발표 당시에는 두드러지지 않았던 현상이 최근 큰 문제가 됐다. 많은 사용자들이 LLM을 접하며 불거진 '환각 현상' 때문이다. 샘 알트먼 오픈AI CEO조차 최근 인터뷰에서 "AI가 내뱉는 헛소리가 두렵다"고 언급했을 정도다.
미첼은 "논문 발표 당시 LLM이 도약하려는 시점이라는 것을 알았지만, 실제 피해와 위험에 대해 인용할만한 사례는 없었다"며 "이제라도 데이터셋에 대한 검증을 실시하지 않으면 위험이 현실화될 것"이라고 지적했다.
논문 저자들은 이제 LLM이 대중적인 기술이 됐기 때문에 사람들이 알아야 할 필요가 있다고 말한다. 벤더 교수는 "오픈AI가 사용한 데이터가 무엇인지 알리지 않는 것은 위험한 일"이라고 꼬집었다.
그는 또 "인터넷에 흩어져 있는 데이터가 진실을 그대로 반영한다는 잘못된 가정이 LLM의 헛소리를 끌어낸다"며 소스 데이터의 투명한 공개를 재차 강조했다.
임대준 기자 ydj@aitimes.com
