한국과학기술원(KAIST, 총장 이광형)은 안성진 전산학부 교수 연구팀이 미국 럿거스 대학교와 공동으로 사람의 라벨링 없이 스스로 영상 속 객체를 식별할 수 있는 인공지능 기술을 개발했다고 1일 밝혔다.
안 교수 연구팀에 따르면, 이 모델은 복잡한 영상에서 각 장면의 객체들에 대한 명시적인 라벨링 없이도 객체를 식별하는 세계 최초의 인공지능 모델이다.
영상 및 이미지 데이터(장면 데이터)의 라벨링 작업은 기계가 주변 환경을 지능적으로 인지하고 추론하기 위해서 시각적 장면을 구성하는 객체들과 그들의 관계를 파악할 수 있도록 표시하는 과정이다. 이 과정은 대체로 사람이 직접 수작업으로 해왔는데 오류 빈도나 소요 시간 및 비용 등의 측면에서 문제점이 있다.
이번에 연구팀이 개발한 기술은 환경에 대한 관측만으로 객체의 개념을 스스로 자가 학습하는 방식을 취하기 때문에 사람의 인식 과정과 유사하다. 이는 인공지능이 발전해 나가는 차세대 인지 기술의 핵심이라 할 수 있다.
기존 인지 기술은 객체 형태와 배경이 명확히 구분될 수 있는 단순한 장면에서만 객체를 식별할 수 있었다. 반면 안성진 교수 연구팀이 개발한 기술은 복잡한 형태의 많은 객체가 존재하는 사실적인 장면에도 적용될 수 있다.
연구팀은 이미지 생성 AI에서 아이디어를 떠올렸으며, 텍스트를 입력하는 대신 모델이 객체를 감지하고 그 객체의 표상으로부터 이미지를 생성하는 방식으로 모델을 학습시켰다.
이렇게 학습하는 데는 '달리(DALL-E)'와 유사한 트랜스포머 디코더를 활용한 것이 주효했다.
연구팀은 복잡하고 정제되지 않은 영상 외에도 많은 물고기가 있는 수족관과 교통이 혼잡한 도로의 상황을 담은 유튜브 영상과 같이 복잡한 실제 영상에서도 모델의 성능을 측정했다. 그 결과, 기존 모델보다 객체를 훨씬 더 정확하게 분할하고 일반화하는 것을 확인할 수 있었다고 밝혔다.
연구팀을 이끈 안성진 교수는 "인간과 유사한 자가 학습 방식으로 상황을 인지하고 해석하는 혁신적인 기술ˮ이라며 "시각적 상황인지 능력을 획기적으로 개선해 지능형 로봇 분야, 자율 주행 분야뿐만 아니라 시각적 인공지능 기술 전반에 비용 절감과 성능향상을 가져올 수 있다ˮ고 말했다.
한편 연구진은 미국 뉴올리언스에서 진행중인 기계학습 학회 ‘뉴립스(NeurIPS)2022’에서 이번 연구 내용을 발표했다.
이성관 기자 busylife12@aitimes.com
