고전 텍스트 게임으로 간 인공지능...강화학습과 NLP로 병목현상 풀어
상태바
고전 텍스트 게임으로 간 인공지능...강화학습과 NLP로 병목현상 풀어
  • 입력 2020-07-02 12:24
  • 댓글 0
이 기사를 공유합니다

조지아공대ㆍMS AI 연구팀, '조크(Zork)' 병목현상 강화학습과 NLP 결합한 AI모델로 해결
텍스트 어드벤처 게임에서 사용하는 20만개 이상 질문ㆍ답변 데이터셋 활용

'퍼스널컴퓨터(PC)'라는 개념이 나오기 시작할 무렵인 1977년. MIT 과학연구소에서 만난 4명의 MIT 졸업생이 PCP-10 메인 프레임을 사용해 게임을 만들었다. 텍스트 어드벤처 게임인 '조크(Zork)'다. 비디오 그래픽이 없던 시절이라 텍스트로만 진행할 수 있는 게임이었다. 

'조크'는 텍스트형 멀티게임인 머드(MUD)게임의 초기버전으로 볼 수 있다. 플레이어는 보석으로 덮인 알과 성배같은 보물을 수집하기 위해 동굴과 강으로 가득 찬 신비로운 세계를 탐험하며 '트롤'이나 '싸이클롭스' 등 괴물과 싸워 나간다는 스토리다. 사실 조크는 대화형 소설로도 유명했다.

게임은 유저가 텍스트 명령문을 입력하면 대화문을 안내받고 미션을 수행하는 방식으로 진행된다. 예를 들어 '사서함 열기'를 입력하면 게임에서 '작은 우체통을 열면 메시지를 받을 수 있습니다'라는 안내 문구가 나온다. 유저가 작은 우체통을 열면 '동쪽으로 가시오'와 같은 안내를 받고 동쪽으로 이동하는 방식이다.

1980년대 PC용으로 발매된 '조크'는 80만부 이상 팔리는 인기를 끌었다. 조크는 지금도 개발자들에게 많은 영감을 주는 존재다.

조크 시작화면(사진=모비게임즈)
조크 시작화면(사진=모비게임즈)

최근 조지아공대와 마이크로소프트(MS) 인공지능(AI) 연구팀이 '조크'와 같은 게임의 완성도를 높이는데 강화학습과 자연어처리(NLP) 등 AI 기법을 접목해 관심을 끌고 있다.

벤처비트가 지난달 30일(현지시간) 이들이 개발한 AI모델 'MC!Q*BERT'이 텍스트 어드벤쳐 게임 9개 가운데 8개에서 기존 AI모델들이 풀지 못한 병목 구간을 해결했다며 집중 소개했다.

텍스트 기반 강화학습의 활동 영역은 언어에서 사용하는 모든 문장과 구절이다. 이런 관점에서 텍스트 게임은 강화학습의 언어영역에서 매력적인 대상인 셈이다. 액션 공간을 게임의 유효한 명령 집합으로 줄일 수 있기 때문이다.

벤브라운 Howdy.ai CEO는 조크가 AI로 움직이는 챗봇을 디자인하는 데 도움을 주었다고 언급한 바 있다. 또 페이스북 연구팀은 최근 '넷핵' 게임을 활용해 강화학습 에이전트의 일반화 및 완성도 평가를 위한 연구 도구인 '넷핵  학습환경'을 공개하기도 했다.

조지아공대와 MS 합동 연구팀은 이번에 개발한  AI모델 'MC!Q*BERT'을 텍스트 게임에서 긴대화를 아날로그화한 것처럼 복잡한 작업을 계획하거나 개별 계획 도메인을 사용하는 물류시스템에 활용할 수 있을 것으로 기대했다.

MC!Q*BERT는 질문을 통해 지식 그래프를 학습하고 구축하는 심층 강화학습 에이전트 Q*BERT에서 제작했다. 게임에서 나타난 모든 행동에 대한 질문을 생성하고 이를 전환해 지식 그래프에 쌓았다.

우선 질문에 답하기 위해 Q*BERT는 BERT의 변형 모델 ALBERT의 사전훈련 버전을 사용했다. 이를 SQuAD벤치 마크와 예리코-QA를 활용해 미세 조정을 했다. 예리코-QA는 텍스트 어드벤처 게임에서 사용하는 20만개 이상의 질문ㆍ답변 데이터셋이다.

조크2 게임 지도 (사진=인포컴 홈페이지)

텍스트 어드벤처 게임에서 AI가 해결해야할 가장 큰 과제는 게임 진행이 막히는 현상인 병목 현상으로 특정 게임구간에 갇혀 버리거나 아예 사라지는 경우다. 예를 들어, 조크 게임에서 많은 유저가 어둠 속에서 이동할때 그루라는 몬스터에게 잡아 먹히곤 한다. 이 구간을 많은 유저들이 병목구간으로 꼽는다.

기존 AI모델은 해결하지 못했지만 Q*BERT는 이때 자동으로 병목 현상을 감지하고 이를 해결하는 대책을 세운다. 종속성 그래프는 게임 진행을 위해 Q*BERT 항목을 수집하고 방문해야 하는 게임 속 위치 정보를 모은다.

모든 테스트는 MS가 만든 예리코 시뮬레이터로 진행했다. 에이전트가 시뮬레이션 환경에서 보상을 수집하지 못한 경우 작성자는 병목 현상으로 인해 에이전트가 중단될 수 있음을 의미하는 것으로 이해했다. 이를 확인하면 에이전트는 모듈형 체인이라고 불리는 방법을 사용해 이전에 방문한 상태로 되돌아가 병목 현상을 해결한다.

한편, 구글 AI는 최근 워싱턴대와 프린스턴대 연구 파트너와 함께 '효율적QA 경쟁'을 공개했다. 효율적인 QA 경쟁은 질의응답을 활용해 지식 저장이 가능한 NLP를 만들어 냈다. 이 모델은 인간의 트라이비아 전문가들과 생방송으로 경쟁할 것으로 기대된다.

[관련기사] 페이스북, 넷핵 게임을 활용한 AI 개발 툴 공개

[관련기사] 인공지능이 타협도 한다고?...딥마인드, 승부 넘어 윈윈하는 AI 교육

 

기자 프로필


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
유용한 리스티클
  • 지금 사면 좋은 AI 주식 3가지
  • 영국의 5대 AI 기업
  • 개발자가 가장 많이 사용하는 오픈소스는 '제이쿼리'
  • [DNA 우수기업] 〈2〉알서포트...원격지원 SW로 비대면 업무 보조
  • 네이버는 줄이고, 카카오는 늘리고...양사 계열사 현황
  • AI 접목 패션업계, 사용자 수 증가 효과