네 가지 시뮬레이션 환경에서의 태스크 분포 시각화 (사진=UNIST)
네 가지 시뮬레이션 환경에서의 태스크 분포 시각화 (사진=UNIST)

울산과학기술원(UNIST, 총장 박종래) 인공지능대학원 한승열 교수팀은 학습에 포함되지 않은 새로운 임무에도 적응하는 인공지능(AI) 훈련법 'TAVT(Task-Aware Virtual Training)'를 개발했다고 19일 밝혔다.

AI가 ‘가상의 임무’를 만들고 이를 미리 학습하는 방식이다.

이를 위해 딥러닝 기반의 표현 학습 모듈과 생성 모듈을 구성했다고 전했다. 표현 학습 모듈이 서로 다른 임무 간의 유사도(거리)를 정량화해 임무 구조(latent representation)를 파악하면, 생성 모듈이 이를 조합해 새로운 가상의 임무를 만든다.

연구팀은 생성된 가상 임무가 원래 임무의 특징을 보존할 수 있도록 설계, 새로운 상황에 대한 예습 효과가 있다고 말했다. 

제1 저자인 김정모 연구원은 “기존 강화 학습(RL)은 하나의 임무에서 최적의 정책을 익히도록 설계, 새로운 상황에서는 성능이 급격히 떨어진다"라며 "다양한 임무를 경험하게 하는 메타 강화 학습 기법도 있지만, 훈련 범위를 벗어난 상황(Out-Of-Distribution)에서는 여전히 적응이 쉽지 않다”라고 설명했다.

이 방식을 치타와 개미 등 다양한 로봇 시뮬레이션 환경에 적용한 결과, 훈련하지 않은 임무에 대한 적응력이 향상됐다고 밝혔다.

특히 '치타 로봇 시뮬레이션(Cheetah-Vel-OOD)'에서는 TAVT 기법을 적용하면 경험해 보지 못한 중간 속도(초속 1.25, 1.75m 등)에서도 목표 속도를 빠르게 파악해 주행했다고 전했다.

반면, 기존 메타 강화 학습 기법을 적용한 로봇은 적응이 느리거나 넘어지는 일이 잦았다고 덧붙였다.

한승열 교수(왼쪽)와 김정모 연구원 (사진=UNIST)
한승열 교수(왼쪽)와 김정모 연구원 (사진=UNIST)

한승열 교수는 “이번 기법은 AI 에이전트의 임무 일반화 성능을 높일 수 있는 방식으로, 피지컬 AI 로봇이나 자율주행차·드론 등 다양한 상황에서 유연한 대응이 필수적인 분야에 폭넓게 활용될 수 있을 것”이라고 말했다.

이번 연구 결과는 세계 3대 인공지능 학회 중 하나인 국제머신러닝학회(ICML)에 채택됐다. 2025 ICML은 지난 7월 캐나다 밴쿠버에서 열렸다.

한편, 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)의 ‘지역지능화혁신인재양성사업’, ‘사람중심 인공지능 핵심원천기술개발’, ‘인공지능대학원 지원(울산과학기술원)’, ‘연속 공간 강화학습의 수렴성 개선을 위한 정보 엔트로피 기반 탐험 기법 개발연구’ 등의 지원을 받아 이뤄졌다.

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지