AI 비서 스스로 말 걸기 좋은 타이밍 파악...추론에 영향 미치는 요인 발견
사용자의 움직임, 최적의 시점 판단에 큰 영향 끼쳐
차나래 KAIST 연구원 인터뷰

미니(Mini) 인터뷰
- 차나래 한국과학기술원(KAIST) 연구원 -
 

◆ 이번 연구 수행의 계기는 무엇인가요?
스마트 스피커 속 인공지능(AI) 비서는 단순한 음악 재생부터 쇼핑과 주문 등 복잡한 업무까지 수행합니다. 하지만 비서라는 이름을 가진 만큼, 시키는 일만 하는 것이 아쉽다고 생각했습니다. 또 이용자 명령없이 반복적ㆍ규칙적 업무를 충분히 자동화할 수 있을 것이라 예상했습니다. 

이 같은 스마트 스피커를 개발할 때 가장 중요한 요소는 말을 거는 타이밍입니다. 이에 대화하기 좋은 최적의 발화 시점을 연구하는 데 돌입했습니다.

 

◆ 데이터 수집이나 분석 과정에서 어려운 점은 없었나요?
이번 연구 진행을 위해 자연스러운 환경에서 발생하는 데이터가 필요했습니다. 하지만 이 연구의 경우 실험 환경에 집중한 인위적이고 왜곡된 데이터를 수집할 가능성이 있습니다. 이에 실험 참가자가 실제 거주 중인 공간을 대상으로 실험용 스마트 스피커를 설치했고, 참가자가 일상생활을 편안하게 하는 중에 데이터를 수집해야 했습니다.

그 과정에서 모든 참가자의 거주 공간을 방문해 스마트 스피커를 직접 설치ㆍ수거해야 하는 번거로움이 있었습니다. 또 데이터 수집에 오류가 있을 경우 다시 집을 방문해 오류를 체크하며 관리하는 데 어려움이 있었습니다. 

 

◆ 이번 연구가 향후 AI 스피커 발전에 어떤 영향을 미칠까요?

실험 참가자 중 일부가 스마트 스피커와 정이 들었다고 합니다. 집에 들어가면 먼저 말을 걸어주고 대화를 하며 자연스럽게 친밀감이 쌓인 것 같습니다. 향후 이 기술을 탑재한 AI 스피커는 단순 비서 역할뿐 아니라 사용자를 위한 친구로서 역할을 할 수 있을 것이라고 생각합니다. 또 사용자가 신경 써야할 반복적인 일을 줄여줄 것입니다. 복약 여부ㆍ시간, 정기적인 물품 구매 등을 능동적 AI 스피커가 확인하기 때문입니다. 사용자가 귀가할 경우 스마트홈의 사물인터넷(IoT) 제어를 제안할 수도 있을 것입니다. 개인의 일상 생활을 편리하게 도와주고 개인 맞춤형 라이프 스타일을 만드는 데 도움을 줄 것이라고 생각합니다.

멀티모달 센서 데이터 기반 선제적 대화관리
멀티모달 센서 데이터 기반 선제적 대화관리

국내 연구진이 스마트 스피커 내 인공지능(AI) 비서 스스로 추론해 사용자에게 말 걸기 좋은 시점을 파악할 수 있는 요인을 확인했다.

한국과학기술원(KAISTㆍ총장 신성철)은 이의진 전산학부 교수 연구팀이 스마트 스피커 속 AI 비서가 선제적으로 말 걸기 좋은 최적의 시점을 결정할 수 있도록 한 상황 맥락 요인을 찾았다고 28일 밝혔다.

이 교수 연구팀은 이상수 산업디자인학과 교수와 함께 다학제 연구팀을 구성, 스마트 스피커의 선제적 음성 서비스 구현을 위한 공동 연구를 수행했다. 그 결과, 스마트 홈 환경에서 최적의 발화(發話) 시점을 결정하는 데 중요한 상황 맥락 요인을 찾았다.

최적의 발화 시점 추론은 AI 비서가 음성 서비스 시작ㆍ중지ㆍ재개를 스스로 결정하고 제어하는 데 필수적인 기술이다. 연구팀은 이번에 찾아낸 중요한 상황 맥락 요인이 최적의 발화 시점 추론 시 정확성을 높일 것으로 기대하고 있다.

현재까지 스마트 스피커의 AI 비서는 사용자가 먼저 요청한 서비스만 제공한다. 하지만 최근 사용자의 상황에 맞춰 능동적인 서비스를 제공하는 형태로 진화하는 추세다. AI 비서가 사용자의 상황을 이해한 후 선제적으로 일정 조율과 건강 관리 등을 도와주도록 하는 것이다.

연구팀은 우선 실험용 스마트 스피커를 제작해 데이터 수집에 나섰다.

우선, 이 스피커가 사용자의 움직임을 감지하거나 일정한 시간이 지날 경우 주기적으로 "지금 대화하기 좋은가요"라고 질문하도록 했다. 이에 참가자는 "네" 또는 "아니요"로 대답하고 무엇을 하고 있었는지 설명했다. 연구팀은 교내 기숙사 2인 1실을 사용하는 학생 40명의 방에 스마트 스피커를 설치해 1주일간 총 3500개의 사용자 응답 데이터를 수집했다.

대화하기 좋은 타이밍을 위한 세 가지 요인
대화하기 좋은 타이밍을 위한 세 가지 요인

이후 데이터 분석 결과 전체 참가자 응답 중 47%가 대화하기 부적절한 것으로 드러났다. 이 데이터를 바탕으로 연구팀은 대화하기 좋은 시점을 결정하는 주요 상황 요인을 찾을 수 있도록 19개 실내 활동 범주를 만들고 테스트했다. 이에 연구팀은 적절한 시점을 결정하는 상황 맥락 요인으로 ▲개인적 요인 ▲움직임 요인 ▲사회적 요인 3가지를 꼽았다.

개인적 요인은 '활동 집중도' '긴급함과 바쁨 정도' '정신적ㆍ육체적 상태' '다중 작업 수행을 위한 듣기ㆍ말하기 가능성' 4가지다.

움직임 요인은 '외출' '귀가' '활동 전환' 3가지다. 연구팀은 사용자의 움직임이 있을 때 스피커와 대화 가능한 거리가 최적 시점 판단에 큰 영향을 미쳤다고 설명했다. 외출은 스피커와 대화 가능 범위 밖으로 나가는 움직임이고 귀가는 범위 안으로 들어오는 움직임이다. 범위 안으로 들어오는 귀가 상황일 때 스마트 스피커는 대부분 대화하기 좋은 시점으로 분류했다.

연구팀은 전화 통화와 누군가 함께 있는 상황 등이 스마트 스피커와 대화하기 좋은 시점에 영향을 끼친다는 현상을 확인했다.

이번 연구에 제1 저자로 참여한 차나래 학생은 "이번 연구가 미래 스마트 스피커 개발의 중요한 토대가 될 것이다"라며 "향후 센서 데이터로 감지한 상황 맥락 정보를 활용해 스마트 스피커가 스스로 대화하기 좋은 시기를 선제적으로 파악할 수 있을 것이다"라고 전망했다.

 

[관련 기사] 영국 스카이, 코로나19 넘어 체험형 오프라인 매장 연다

[관련 기사] 과기정통부, 연구소 기업 2000개로 늘린다...1만명 일자리 확보 목표