(사진=MIT)
(사진=MIT)

웨어러블 센서에서 수집한 데이터를 읽고 건강 예측을 해주는 대형언어모델(LLM)이 등장했다. MT와 구글 연구진은 여기에 '헬스-LLM'이라는 이름을 붙였다.

마크테크포스트는 24일(현지시간) MIT와 구글 연구진이 웨어러블 센서의 데이터를 활용해 'GPT-3.5' 및 'GPT-4'를 포함한 8개 LLM의 건강 예측 성능을 평가한 논문을 아카이브에 게재했다고 보도했다.

이에 따르면 연구진은 심박수, 수면 패턴, 신체 활동 등 웨어러블 센서의 데이터를 사용해 건강 예측 작업에 LLM을 적용하도록 구축된 ‘헬스-LLM(Health-LLM)’ 프레임워크에서 GPT-3.5, GPT-4 등  8개의 최첨단 LLM을 평가했다. 정신 건강, 활동 추적, 대사, 수면 및 심장질환의 5가지 영역에서 총 13개의 건강 예측 과제를 비교했다.

또 평가는 ▲제로샷 프롬프팅 ▲퓨샷 프롬프팅 ▲미세 조정 ▲제로샷 환경에서 컨텍스트 강화 등 4가지 방식으로  진행됐다. 제로샷 프롬프트는 작업별 훈련 없이 모델의 고유 기능을 테스트한 반면, 퓨샷 프롬프트는 상황 내 학습을 촉진하기 위해 제한된 예제를 활용했다. 미세 조정은 건강 예측 작업의 맞는 데이터를 활용해 모델을 재훈련했다.

평가 결과 (사진=MIT)
평가 결과 (사진=MIT)

그 결과 알파카 모델을 미세조정한 '헬스-알파카' 모델이 13개 작업 중 5개 작업에서 최고 성능을 기록했다. 이런 성과는 GPT-3.5 및 GPT-4와 같은 대형 모델에 비해 헬스-알파카 모델의 크기가 상당히 작다는 점을 고려하면 특히 주목할 만하다. 

알파카는 지난해 3월 스탠포드대학교 연구진이 메타의 '라마' LLM을 기반으로 개발한 매개변수 70억개의 소형언어모델(sLM)로 5만2000개의 데이터를 클라우드 서비스에서 제공하는 컴퓨터 8대를 이용해 3시간만에 훈련을 마쳤다.

세부적으로는 사용자 프로필, 건강 지식 및 시간적 맥락으로 구성된 컨텍스트 강화를 포함하면 성능이 최대 23.8% 향상될 수 있는 것으로 나타났다. 이는 LLM의 건강 예측 성능을 최적화하는 데 상황 내 정보가 중요하다는 의미다. 

건강 예측을 위해 LLM을 웨어러블 센서 데이터와 통합하는 것이 효과적이라는 결론이다. 나아가 건강 예측을 위한 모델 성능 향상에서 컨텍스트의 중요성을 강조된다.

특히 헬스-알파카 모델의 성공은 더 작고 효율적인 모델이 건강 예측 작업에서 효과적일 수 있다는 가능성을 시사한다. 이는 보다 접근하기 쉽고 확장 가능한 방식으로 고급 의료 분석을 적용할 수 있는 새로운 가능성을 열어 개인 맞춤형 의료라는 더 넓은 목표에 기여할 수 있다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지