[신년특집] ③ 정교해지고 세분화되는 AI 기술

생성 AI 및 멀티모달 AI 확대...
신약·의학 AI 및 합성 데이터 가속화
음성인식 AI 및 두뇌-컴퓨터 인터페이스 향상

딥마인드는 멀티모달 AI 모델 ‘가토’를 출시해 진정한 범용인공지능(AGI)에 한발 더 다가섰다.(사진=딥마인드)

지난해 우리는 ‘생성 AI(generative AI)’ 분야에서 아찔할 정도로 많은 기술 혁신을 목격했다.

단어 몇 개만 갖고도 영상을 제작하는 AI에서 노래 한 소절을 바탕으로 오디오를 생성하는 AI에 이르기까지 다양한 혁신적 모델이 등장했다. 연말에는 인간과 유사한 텍스트를 생성하고 높은 수준의 유창함과 일관성으로 광범위한 주제에 응답하는 챗봇이 단연 화제였다.

하지만 아직 일반 대중이 사용하려면 이러한 모델들은 더 많이 발전해야 한다. 얀 르쿤은 “생성 AI가 더 발전할 것”이라며 “우리가 그런 모델에서 끌어내고자 하는 것을 특정하는 더 나은 방법을 찾게 될 것”이라고 전망했다.

현재 생성형 AI 모델은 입력된 텍스트에 반응해서 결과물을 생성하지만, 그는 “지금으로서는 텍스트 생성 시스템이 내놓는 결과물을 통제하기가 매우 어렵다”고 덧붙였다. 또 앞으로 AI 모델의 구조를 수정해 의도한 결과물을 내놓을 수 있는 방법으로 정교해질 것을 예상했다.

생성 AI는 일반적인 이미지나 비디오 생성 뿐 만 아니라 특정 분야에 집중된 문제를 처리하도록 활용의 폭이 광범위해 질 전망이다.

예를 들어 건축 분야에 이미지 생성 AI를 적용해 건축 세부 사항, 연결, 교차 및 조립 순서를 생성하도록 훈련할 수 있는 방법을 탐구하고 건축 문서나 도면를 생성하는 데 활용할 수 있다.

또 생성 AI가 계속 진화함에 따라 적용 영역도 확대되고 있다. 그 중에서도 신약 발견을 앞당기고 의학 연구를 더욱 발전시킬 것으로 전망된다.

단백질의 구조를 예측할 수 있는 AI인 딥마인드의 알파폴드(AlphaFold)는 분자생물학에서 새로운 종류의 연구를 위한 길을 열어 연구자들이 질병의 작동 방식과 이를 치료할 신약을 만드는 방법을 이해하는 데 도움을 주었다.

메타는 단백질 구조를 예측하는 훨씬 빠른 모델인 ESM폴드(ESMFold)를 공개했는데, 이는 대규모 언어 모델을 기반으로 하는 기술을 사용하는 단백질에 대한 일종의 자동 완성이다.

가트너는 2025년까지 모든 신약 및 발견된 물질의 최소 30%가 생성 AI 모델에서 나올 것으로 예측했다.

특히 많은 전문가들은 컴퓨터 비전과 오디오를 사용해서 사물을 해석하는 능력처럼 복합적인 감각을 가진 ‘멀티모달(multimodal) AI 모델’을 다음 혁신으로 꼽았다.

이제 중요한 일은 언어 모델에 세상을 감지하는 다른 AI 모델을 통합하는 방법을 알아내는 것이다. 그렇게 되면 로봇이 시각과 언어 신호 및 음성 명령을 통해 주변을 이해하는 데도 도움을 줄 수 있기 때문이다.

헤드 셀 딥마인드 연구책임자도 오디오, 언어, 비전을 결합하는 멀티모달 AI 시스템에 주목하고 있었다. 그는 AI 모델이 시행착오를 통해 스스로 학습할 수 있게 하는 강화학습을 추가하면 주어진 환경 안에서 탐색하고 자율성을 가지며 상호작용하는 능력을 갖춘 AI 모델을 볼 수 있게 될거라고 전망했다.

지난해 공개된 '시각 언어 모델'인 딥마인드의 플라밍고(Flamingo)는 자연어를 사용해 이미지에 대한 질문에 답할 수 있다. 그리고 딥마인드는 하나의 신경망 모델을 이용해 텍스트, 이미지, 영상 등 다양한 양식의 데이터를 처리해 텍스트를 생성, 이미지를 설명, 게임 플레이를 지시, 채팅 또는 로봇의 동작을 제어할 수 있는 범용 에이전트 가토(Gato)를 출시했다.

또한 GPT-4가 출시될 것으로 예상되며 많은 사람들이 이것이 게임 체인저가 될 것이라고 장담하고 있다. 오늘날 많은 응용 프로그램이 GPT-3를 기반으로 하기 때문에 GPT-4가 시장에 혁명을 일으킬 것으로 예상된다. 일부 추정에 따르면 GPT-4는 멀티모달이며 이미지, 비디오 및 오디오도 함께 사용할 수 있다.

합성 데이터(Synthetic data)는 수동으로 레이블을 지정하는 데이터 비용의 일부만으로 완벽하게 레이블이 지정된 데이터를 무제한으로 보유할 수 있는 방법을 제공한다.(사진=IBM)

반면 앞으로 출시될 AI 모델은 이전 모델보다 크기가 크지는 않을 것으로 예상한다. 딥마인드의 친칠라(Chinchilla)는 모델을 훈련시키는 가장 좋은 방법은 매개변수의 수를 무한정 늘리는 것이 아니라 가능한 한 많은 데이터를 수집하는 것임을 보여주었다. 대부분의 모델 훈련에 5조~7조개의 토큰이 사용된 반면 친칠라는 1조4000억개의 토큰으로 훈련했다.

아이러니하게도 고품질 데이터가 부족하다. 현재 효과적인 AI 개발의 가장 큰 한계 중 하나는 관련성 있고 위험이 없는 데이터에 대한 액세스다. 여기서 합성 데이터가 도움이 될 수 있다.

데이터 개인 정보 보호에 대한 우려가 높아지고 실제 시나리오 데이터를 얻는 어려움으로 인해 인위적으로 생성된 데이터의 필요성이 엄청나게 증가할 것으로 예상된다.

이미 주어진 사용 사례에 대해 합성 데이터를 제공하는 많은 플레이어를 볼 수 있으며 AI 모델 훈련을 위한 대량의 합성 데이터를 생성하기 위해 실제 데이터에서 패턴과 분포를 그리는 프로젝트를 구현하는 기업들이 크게 늘어날 것이다.

가트너는 2030년까지 합성 데이터가 AI 모델의 실제 데이터를 완전히 압도할 것으로 추정했다.

한편 스마트 기기의 사용 증가와 함께 AI 기술의 발전 및 적용 범위가 확대되면서 음성 인식을 기반으로 한 서비스와 사용자 경험의 확대가 시장 성장을 이끌 것으로 예측된다.

마켓앤마켓이 발표한 ‘음성 인식 및 발화 시장’ 보고서에 따르면 스마트 홈 장치, 모바일 장치, 웨어러블 장치의 보급이 빠르게 증가하면서 개인 및 가정은 물론 기업 부문에서도 음성 인식 기능이 빠른 성장 곡선을 그리고 있다. 그중에서도 자동 음성 인식(ASR: Automatic Speech Recognition)은 향후 2~3년 동안 가장 높은 연평균성장률을 기록할 것으로 내다봤다.

그러나 음성 인식 기술은 자율주행 기술만큼 복잡하고 어려운 AI 기술로 평가받는다. 음성을 듣거나 문장을 읽고 특정 단어를 찾아내 의미를 해석하는 데 그치지 않고 문장의 요소를 모두 구분하며 전체 의미를 파악해야 하기 때문이다.

AI의 또 다른 잠재적 혁신 영역은 인간의 두뇌 용량과 기억력을 확장할 인간 두뇌-컴퓨터 인터페이스(BCI: Brain Computer Interface)에 관한 것으로 예상한다.

과학은 이미 BCI에서 큰 발전을 이루고 있다. 여기에는 뉴로모픽 칩과 뇌 매핑이 포함될 수 있다. BCI는 뇌에 전기 신호를 기록하고 이 신호를 사용하여 외부 장치를 구동하는 이식형 센서가 있는 새로운 보조 장치를 통해 형성된다.

BCI는 심지어 생각을 읽을 수 있는 것으로 나타났다. 이것은 전기적 활동을 측정하기 위해 ECOG라는 전극판을 뇌의 표면과 직접 접촉시키는 곳에서 이루어진다. 브라이언 브라운 이칸 의과대학 박사에 따르면 ECOG를 통해 마비된 인간은 자신의 생각을 텍스트로 번역하여 다른 사람과 의사소통할 수 있다.

신경 나노로보틱스로 조정되는 BCI 시스템은 개인이 클라우드에서 사용할 수 있는 모든 인간 지식에 즉시 액세스할 수 있도록 하고 인간의 학습 능력과 지능을 크게 향상시킬 수 있다.

또 완전히 몰입되는 가상 및 증강 현실을 전례 없는 수준으로 전환해 사용자에게 더 의미 있는 경험과 더 풍부하고 풍부한 표현을 허용할 수 있다. 이러한 개선 사항은 인류가 AI 시스템을 인간 증강 기술로 채택하는 데 도움이 될 수 있을 것으로 전망된다.

박찬 위원 cpark@aitimes.com

챗GPT·메타버스·전기차·소셜미디어...2023년 삶을 파고들 기술

2023년 기업을 위한 AI 예측 23가지

"기술 풍요 막내리고 경기침체 따른 구조조정 잇따를 것

박찬 위원 cpark@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기