(사진=셔터스톡)
(사진=셔터스톡)

인간의 개입 없이 자율적으로 데이터에서 패턴을 학습하고 식별하는 새로운 클러스터링 알고리즘이 등장했다. 특이하게도 우주의 은하 병합 과정에 등장하는 물리 현상을 AI 기술에 응용했다. 

시드니공과대학교 연구진은 최근 새로운 클러스터링 알고리즘인 ‘토크 클러스터링(Torque Clustering)’을 개발하고, 논문을 IEEE TPAMI에 게재했다.

이 알고리즘은 질량과 거리라는 두가지 물리적 속성에 기반해 데이터에서 자율적으로 패턴을 학습하고 식별할 수 있도록 설계됐다. 논문의 제목은 ‘질량 및 거리 피크의 빠른 탐색을 통한 자율 클러스터링’이다.

클러스터링은 비지도 학습의 한 형태로, 데이터 포인트 간의 유사성이나 거리를 바탕으로 자동으로 그룹을 형성하는 기법이다. 이는 사전에 정의된 라벨 없이 데이터를 분석해 패턴을 찾아낸다. 질병 추세 감지나 사기 활동 식별, 인간 행동 이해와 같은 분야에서 숨겨진 패턴을 발견할 수 있다.

CT 린 시드니 공과대학 교수는 "자연에서 동물은 명확한 지시 없이도 주변 환경을 관찰하고 탐험하고 상호 작용하여 배운다. 차세대 AI인 '비지도 학습'은 이런 방식을 모방하는 것"이라고 말했다.

또 "현재의 거의 모든 AI 기술은 인간이 사전 정의된 범주나 값을 사용하여 방대한 양의 데이터에 레이블을 지정하는 '지도 학습'에 의존한다"라며 "하지만 지도 학습에는 여러 가지 한계가 있다. 데이터 라벨링은 비용과 시간이 많이 걸리기 때문에 대규모 작업에는 종종 비실용적"이라고 지적했다.

반면, 비지도 학습은 데이터의 라벨링 없이 작동, 데이터셋 내의 고유한 구조와 패턴을 발견하는 방식이라고 설명했다. 

논문 제 1저자인 지에양 박사는 "토크 클러스터링은 물리적 개념에 기반을 두고 있어 클러스터를 자율적으로 식별하고 다양한 모양과 밀도, 노이즈 정도가 있는 다양한 데이터 유형에 원활하게 적응할 수 있다는 점"이라고 밝혔다.

즉, 우주 공간에서 은하가 병합될 때 발생하는 중력적 상호작용의 '토크 밸런스(torque balance)에서 영감을 얻었다는 것이다. 이는 은하 병합 과정 중 물체에 작용하는 힘의 크기와 방향, 즉 질량과 거리가 정확하게 균형을 이룬다는 물리적 법칙을 말하는 것이다.

은하 병합 (사진=셔터스톡)
은하 병합 (사진=셔터스톡)

구체적으로 연구진은 질량을 클러스터에 포함된 샘플의 수로 정의하고, 거리는 두 클러스터 간의 간격으로 정의했다. 우주의 은하들이 많은 별과 광활한 공간 사이에 분포하는 것처럼, 클러스터도 비슷한 방식으로 표현할 수 있다는 것이다.

또 은하 병합은 이런 클러스터에 포함된 데이터 샘플을 학습해 패턴을 만드는 것으로 봤다. 이때 토크 밸런스가 중요한 역할을 한다.

이는 길이가 길면 질량이 적고, 질량이 많으면 길이가 짧아야 한다는 원칙이다. 따라서 두 클러스터가 많은 샘플을 포함하고 있으며 거리가 멀다면, 자연스럽게 병합되지 않는다.

연구진은 토크 클러스터링 알고리즘은 기존의 비지도 학습 알고리즘들보다 뛰어난 성능을 보이며, 완전히 자율적이고 매개변수가 없어 대규모 데이터셋 처리에 뛰어난 효율성을 발휘한다고 강조했다.

1000개의 다양한 데이터 세트를 테스트한 결과, 97.7%의 조정된 상호 정보(AMI) 점수를 기록하며 기존 최첨단 기술의 80%를 크게 능가했다고 밝혔다.

현재 토크 클러스터링 알고리즘은 깃허브에서 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지