美 스타트업 어뎁트, SW·API·앱 사용하는 AI 모델 'ACT-1' 공개

 

DALL-E mini로 생성한 '도구를 사용하는 AI'  (이미지=craiyon.com)
DALL-E mini로 생성한 '도구를 사용하는 AI'  (이미지=craiyon.com)

인간은 도구를 사용하는 동물이다. 직립보행 이후 도구를 사용하면서부터 빠르게 진화해 왔다. 지금으로부터 300만년쯤 전의 일이다. 

인간처럼 도구를 사용할 줄 아는 인공지능(AI)이 등장했다. 인간이 그랬던 것처럼 AI도 진화 속도에 가속이 붙게 될 것으로 보인다.   

미국 스타트업 어뎁트가 사람처럼 컴퓨터 프로그램을 가지고 작업을 수행할 수 있는 AI 모델 'ACT(Action Transformer)-1'을 개발해 공개했다고 테크니카가 16일(현지시간) 보도했다.

새로운 AI 비서는 사람처럼 웹 앱을 탐색, 검색 및 사용할 수 있다.(사진=어뎁트)
새로운 AI 비서는 사람처럼 웹 앱을 탐색, 검색 및 사용할 수 있다.(사진=어뎁트)

ACT-1은 소프트웨어 도구와 API 및 앱을 사용할 수 있도록 학습한 AI 모델이다. 음성이나 텍스트로 명령하면 사람처럼 컴퓨터 작업을 수행한다. 사람처럼 마우스를 클릭하거나 스크롤 기능을 사용해 인터넷을 검색하기도 한다.

신경망 '트랜스포머 모델'을 기반으로 데이터 세트의 항목 간 문맥과 관계에 대한 지식을 구축하는 방식으로 학습했다.

크롬 확장 프로그램과 연결해 브라우저에서 일어나는 일을 관찰하고,  클릭ㆍ입력ㆍ스크롤과 같은 특정 작업을 수행한다. 사람이 소프트웨어를 조작하는 방법을 관찰해 일련의 복잡한 유저인터페이스(UI) 작업을 자동화하는 방법을 배워 수행하도록 했다.

높은 수준의 사용자 요청도 처리할 수 있다. 사용자가 텍스트 상자에 명령을 입력하기만 하면 나머지는 ACT-1이 스스로 처리한다. 

예를 들어 사용자가 텍스트 입력 상자에 "휴스턴에서 4인 가족이 사용할 수 있는 집을 찾아줘. 예산은 60만달러"라고 입력하면, ACT-1은 웹 브라우저에서 부동산 사이트를 자동으로 탐색한다. 그 다음 웹 사이트의 적절한 영역을 클릭, 검색 항목을 입력해 일치하는 집이 화면에 나타날 때까지 검색 매개변수를 변경한다.

"휴스턴에서 4인 가족이 사용할 수 있는 집을 찾아줘. 예산은 60만달러" 명령을 처리하는 ACT-1 데모 영상. (사진=어뎁트)
"휴스턴에서 4인 가족이 사용할 수 있는 집을 찾아줘. 예산은 60만달러" 명령을 처리하는 ACT-1 데모 영상. (사진=어뎁트)

스프레드시트와 같은 도구에서 작업하는 ACT-1은 문맥이 의미하는 바를 추론, 인간이 파악조차 못 한 일을 도울 수 있다.

웹 기반 스프레드시트 앱인 구글 스프레드시트를 작동하는 ACT-1 데모 영상. (사진=어뎁트)
웹 기반 스프레드시트 앱인 구글 스프레드시트를 작동하는 ACT-1 데모 영상. (사진=어뎁트)

ACT-1과 같은 AI 비서를 사용하면 컴퓨터나 전화, 인터넷 등 장치를 통해 할 수 있는 일이 크게 늘어난다. 컴퓨터와의 상호 작용은 GUI(Graphic user Interface)가 아닌 대부분 자연어를 사용해 이뤄지기 때문이다.

사람이 컴퓨터에 무엇을 하라고 말이나 글로 지시하면 컴퓨터가 처리하는, 그야말로 비서 같은 시스템이다. 이는 컴퓨터 초보자도 숙달된 사용자가 될 수 있게 해준다.

이 AI 모델이 상용화되면 사람은 더이상 SW 도구나 컴퓨터 언어를 배울 필요가 없게 될 전망이다. 

박찬 위원 cpark@aitimes.com

[관련기사]구글, 스스로 생각해서 반응하는 AI로봇 공개

[관련기사]"복잡한 일도 스스로 해결하는 AI 시대 왔다"...이홍락 미시건대 교수

키워드 관련기사
  • AI가 이미지에 어울리는 '색깔'까지 골라준다
  • 구글, 이미지에 대한 질문-답변 데이터 생성 모델 공개
  • 마이크로소프트, 비학습 데이터로 응답하는 언어 모델 ‘고델(GODEL)’ 공개