구글 최신 대화형 AI 언어모델 LaMDA 2 발표
언어모델의 오류 탐색 위한 베타 테스트 출시
피드백을 얻기 위해 단계적 액세스 권한 부여

Google I/O 2022 개발자 컨퍼런스에서 최신 언어모델 LaMBDA 2의 오류를 탐색하기 위한 베타 테스트 개념의 AI Test Kitchen을 공개했다.(사진=구글)
Google I/O 2022 개발자 컨퍼런스에서 최신 언어모델 LaMBDA 2의 오류를 탐색하기 위한 베타 테스트 개념의 AI Test Kitchen을 공개했다.(사진=구글)

구글이 최근에 메타가 모델의 결함이나 취약성을 탐색하기 위해 자사의 언어모델을 공개한 것처럼 'Google I/O 2022 개발자 컨퍼런스'에서 최신 언어모델 LaMBDA 2의 오류를 탐색하기 위한 베타 테스트 개념의 'AI Test Kitchen'을 공개했다.

대화형 응용 프로그램을 위해 구축된 AI 언어모델인 LaMDA 2는 수백만 가지의 주제를 이해하고 자연스러운 대화를 생성할 수 있다. 대부분의 언어모델과 마찬가지로 LaMDA 2는 인터넷이나 서적에서 수집한 방대한 양의 텍스트 데이터를 기반으로 문장에서 단어가 발생할 가능성을 학습한다.

그러나 AI 언어모델은 인간처럼 텍스트를 생성하고 대화하는 놀라운 능력을 가지고 있지만 편견, 유해한 언어나 허위정보를 생성하는 위험한 능력도 가지고 있어 문제가 되고 있다. 구글도 자사의 언어모델의 편견 문제를 제기한 직원을 해고한 바 있다. 성별이나 인종 편견으로 인한 편향에서부터 이러한 모델이 단순히 꾸며내는 경향이 있다는 사실에 이르기까지 AI 언어모델과 관련된 문제들이 계속해서 제기되고 있는 실정이다.

구글은 언어모델 LaMDA 2가 무엇을 할 수 있는지 보여주고 어떤 오류나 결함을 가지고 있는지 조사하기 위해 AI Test Kitchen라는 도구를 출시했다. 이 도구는 AI 연구원과 사회 과학자에서 인권 전문가에 이르기까지 광범위한 이해 관계자의 피드백을 얻기 위해 LaMDA 2에 대한 액세스 권한을 부여할 예정이다.

구글은 LaMDA 2가 아직 원하는 수준이 아니기 때문에 AI Test Kitchen은 LaMDA 2가 자연어를 해석하고 응답하는 기능을 구체적으로 테스트하도록 설계되었다고 전했다. 이것은 테스트일 뿐이므로 마음에 들지 않는 답변을 볼 수 있겠지만 LaMDA 2가 제공하는 모든 답변에 대해 피드백을 제공해 모델을 조정하고 개선하는데 도움을 줄 수 있다.

AI Test Kitchen에는 세 가지 모드 ▲상상하기(Imagine It) ▲나열하기(List IT) ▲이야기하기(Talk About It) 가 있으며 각 모드는 다른 목적을 가지고 있다. 

먼저 ‘상상하기’ 모드는 프롬프트에 설명할 실제 또는 가상 장소의 이름을 입력하면 모델은 해당 장소에서 보거나 느낄 것으로 예상되는 것에 대한 설명으로 응답한다. 예를 들어, 사용자가 가장 깊은 바다를 상상하도록 요청하면 모델은 마리아나 해구에서 볼 수 있는 것에 대한 설명으로 응답한다.

그런 다음 더 많은 질문으로 상상하고 싶은 상황에 대해 점점 더 자세한 설명을 얻을 수 있다.

AI Test Kitchen의 ‘상상하기(Imagine It)’ 모드 사용 예.(사진=구글)
AI Test Kitchen의 ‘상상하기(Imagine It)’ 모드 사용 예.(사진=구글)

‘나열하기’ 모드는 채소 밭을 가꾸거나 이사하는 것과 같이 하고 싶은 일이나 주제를 입력하면 모델은 목표를 달성하기 위해 수행해야 할 작업 목록  등의 아이디어를 사용자에게 제공한다. 

원래 프롬프트를 다시 실행해 해당 목표를 달성하기 위해 수행할 수 있는 작업에 대한 더 많은 아이디어를 얻을 수도 있다. 구글은 AI 모델이 원래 생각하지 못한 내용을 얼마나 잘 제안할 수 있는지에 대한 피드백을 찾고 있다.

AI Test Kitchen의 ‘나열하기(List IT)’ 모드 사용 예.(사진=구글)
AI Test Kitchen의 ‘나열하기(List IT)’ 모드 사용 예.(사진=구글)

마지막으로, ‘이야기하기’ 모드는 AI 모델이 대화 주제에서 벗어나지 않고 대화를 이어가는지를 확인한다. 예를 들어 사용자가 ‘개’에 대해 이야기하기 시작한 다음 그 주제에서 벗어나도록 시도할 경우 모델이 대화를 원래 주제로 다시 복귀시킬 수 있는지 확인하는 것이다.

AI Test Kitchen의 ‘이야기하기(Talk About It)’ 모드 사용 예.(사진=구글)
AI Test Kitchen의 ‘이야기하기(Talk About It)’ 모드 사용 예.(사진=구글)

그러나 이것을 직접 테스트하려면 조금 더 기다려야 할 수도 있다. 구글은 AI Test Kitchen을 소규모 그룹의 사람들에게 먼저 공개하고 시간이 지남에 따라 공개 범위를 확대하겠다고 밝혔다. 

구글은 AI 언어모델을 평가하기 위한 몇 가지 주요 기준, 즉 근거, 품질 및 안전성에 집중하고 있다고 말한다. ‘근거’는 시스템이 실제로 정보를 구성하는지 여부이고, ‘품질’은 응답이 얼마나 주제에 부합하는지를 나타낸다. 그리고 ‘안전성’은 모델이 유해하거나 유독한 말을 할 수 있는 가능성을 나타낸다.

구글은 이는 본질적으로 해결되기 어려운 문제이며 이 기술을 배포하는 데 신중을 기할 것이라고 한다. 또한 구글은 연구 프로토타입으로 구축할 수 있는 것과 실제로 제품으로 배포할 수 있는 것 사이에는 큰 차이가 있다고 강조한다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]메타, 언어 모델 OPT-175B 무료 공개

[관련기사]“무엇이든 물어봐”...딥마인드, 소량의 데이터 만으로 학습하는 시각 언어 모델 공개

키워드 관련기사
  • 구글, 5400억 매개변수 초대형 언어 모델 ‘PaLM’ 공개
  • 구글 AI, 대규모 다국어 음성-음성 번역 말뭉치 공개
  • [GTC 2022] KT, GPT-3 뛰어넘는 언어모델 만든다