버나드 위드드로우와 ADALINE
버나드 위드드로우와 ADALINE

퍼셉트론이 언론을 통해 세상에 알려지자 많은 관심이 쏟아졌다. 앞서 소개한 뉴욕타임스 기사 외에도 많은 신문과 뉴요커 등 잡지 등에서 퍼셉트론을 다루거나 로젠블래트와의 인터뷰 기사를 실으며 혁명적이고 놀라운 기술적 쾌거로 칭송했으며, TV에서도 퍼셉트론의 시연을 방송했다. 

1959년 로젠블래트가 코넬대학교 심리학과 교수가 되며 퍼셉트론 연구도 코넬 항공연구소에서 코넬대로 옮겨왔다. 그는 인지시스템 연구 프로젝트를 맡으며 '마크 I 퍼셉트론'이 발표된 이후에도 또 다른 다양한 종류의 퍼셉트론을 실험하며 논문을 발표했다. 1962년에는 그의 작업을 정리한 책 ‘신경 역학 원론: 퍼셉트론과 두뇌 메커니즘의 이론’을 썼는데, 공학과 인문학과 학생들 상대의 강의 교재로 사용하며 학제 간 강좌로 정착시키려고 했다. 그런데, 당시 신경망 연구로 많은 언론의 관심을 받은 사람은 로젠블래트만 있던 것은 아니었다. 

이 시기 AI 학계에서도 신경망 연구가 활발해지기 시작했는데, 스탠포드대학교 전기공학과 교수였던 버나드 위드로우(Bernard Widrow)도 연구자 중 한명이었다. 로젠블래트의 연구와는 독립적으로, 그는 박사 과정 제자인 테드 호프(Marcian Ted Hoff)과 함께 ‘ADALINE(ADAptive LInear NEuron/LINear Elements)’이라는 단층 신경망 장비를 마크 I 퍼셉트론이 공개된 것과 같은 해인 1960년에 개발했다. 호프는 훗날 인텔의 초창기 멤버로서 마이크로프로세서 개발에 큰 공헌을 한 인물이기도 하다. 이들이 개발한 장비는 AI를 구현하려는 목적보다는 제어공학 시스템으로서 ‘적응 제어(Adaptive Control)’를 구현하기 위해 신경망을 활용한 것이었다. 

1950년대 MIT에서 공부한 위드로우의 연구 접근 방식은 확실히 사이버네틱스에 뿌리를 두고 있었다. 신호와 잡음과의 관계에서 스스로 최적화할 수 있는 필터를 개발해 신호를 강화하는 적응형 제어를 구현하려 했던 위드로우는 사이버네틱스 연구의 한 방법인 물리적 기반의 적응형 기계로 제어 시스템을 구현하려고 했다. 그래서 퍼셉트론이 언론에 공개될 때까지도 로젠블래트의 연구를 모르고 있었던 위드로우는 가중치 제어 방식도 퍼셉트론과는 완전히 다른 방식으로 개발했다. 로젠블래트는 신경망에서 가중치를 제어하기 위해 모터와 가변저항기를 사용했지만, 위드로우와 호프는 직접 만든 저항 회로를 제작했다. 저항 회로는 구리로 도금된 구역과 도금되지 않은 구역으로 이뤄진 판과 흑연 막대로 구성됐는데, 이를 통해 전기 저항을 변화시키며 가중치를 제어했다.

학습 알고리즘에도 차이가 있다. 퍼셉트론은 임곗값을 기준으로 출력이 결정되고 그 출력값이 틀렸을 경우에 가중치를 업데이트한 반면, ADALINE에서는 출력값을 내기 전의 값을 기준으로 실제 값과 예측값의 차이가 있으면 가중치를 업데이트하는 방식을 적용했다. 실제 값과 예측값의 차이, 즉 오차를 자동 측정하기 위해 경사 하강법을 도입했고, 오차 기울기를 찾는 효율적인 방법으로 ‘최소 평균 제곱(LMS)’ 알고리즘을 개발하기도 했다.

나중에 위드로우는 ADALINE이 마크 I 퍼셉트론보다 훨씬 빠르고 더 신뢰할 수 있는 시스템이라고 주장했다. 사실 시연으로 끝났던 퍼셉트론과 달리, ADALINE은 상업적 응용이 가능했는데 이는 바이너리 패턴을 인식할 수 있었기 때문이다. 즉, 전화선에서 스트리밍 비트를 읽는 경우 다음 비트를 예측할 수 있었고, 이를 전화선에서 노이즈를 걸러내는 적응형 모뎀으로 활용하는 것이 가능했다.

위드로우와 테드 호프는 여러개의 ADALINE으로 구성한 좀 더 복잡한 신경망 장비인 'MADALINE (Multiple ADALINE)'도 개발했다. 다층 신경망이기는 했지만 당시에는 역전파를 적용할 수 없었기 때문에 MADALINE은 다층의 가중치 조정을 할 수 없었고, 그래서 독자적인 학습 규칙을 개발해서 적용할 수밖에 없었다. 

MADALINE은 실제 세계의 문제에 적용된 최초의 신경망으로, 전화선에서 에코를 제거하는 적응형 필터로 사용해 항공 교통 관제 시스템에 활용되기도 했다. AI 연구계에서 아주 유명하지는 않지만, ADALINE이나 MADALINE은 신경망 모델에서 경사 하강법을 처음으로 학습에 적용했다는 데 의미가 있다. 25년 뒤 럼멜하트와 힌튼이 다층 신경망에서 역전파를 제시하기 전까지는 일반적으로 신경망 모델에서 경사 하강법을 적용하기란 쉽지 않았다.

당시 신경망 개발의 또 다른 대표 사례는 ‘미노스(Minos)’였다. 미노스는 미 육군의 지도 기호 인식과 이미지 자동 인식 시스템으로 SRI(Stanford Research Institute)에서 개발됐는데, 로젠블래트가 기술 컨설팅을 제공했다. 신경망 학습 장치인 퍼셉트론은 기본적으로 이미지나 패턴 인식 장치였기 때문에 퍼셉트론의 성공을 활용하고 다른 분야로 확장하려는 다양한 시도가 이뤄졌고, 미노스는 그중 하나였다. 

찰스 로젠과 셰이키 로봇 (사진=컴퓨터-타임라인)
찰스 로젠과 셰이키 로봇 (사진=컴퓨터-타임라인)

1960년에 공개된 단순한 형태의 신경망인 미노스는 최초의 인공지능(AI) 모바일 로봇인 ‘셰이키(Shakey)’ 프로젝트를 이끌게 될 SRI의 찰스 로젠(Charles Rosen)의 팀에서 개발했다. 미노스는 가중치 제어에 퍼셉트론이나 ADALINE과 달리 자기장 부품을 사용했는데, 로젠블래트도 퍼셉트론의 모터와 가변저항기 부품을 자기장 부품으로 대체하는 것에 관심이 있어서 SRI의 미노스팀과 긴밀한 접촉을 유지했다. 

1958년부터 1967년까지 미 육군의 지원을 받은 미노스 프로젝트의 원래 목표는 군사용 지도에서 기호를 자동으로 인식하는 것이었다. 하지만, 개발이 진행되면서 항공 사진을 바탕으로 탱크와 같은 군용 차량을 인식하거나 손 글씨를 인식하려는 시도도 이뤄졌다. 1960년대 중반에 개발된 ‘미노스 III’는 전용 컴퓨터를 사용해서 포트란(FORTRAN) 코딩용지에 손 글씨로 쓴 프로그램을 98%의 정확도로 인식할 수 있었고, 이것은 당시의 기술로는 획기적인 발전이었다.

미국 외부에서 있었던 신경망에 대한 연구 중 가장 주목할 만한 연구는, 당시 소비에트 연방국의 하나인 우크라이나의 수학자 알렉세이 이바크넨코(Alexey Ivakhnenko)가 1968년 발표한 귀납적 통계 학습 방법 'GMDH(Group Method of Data Handling)'였다. 소비에트 연방 최초의 사이버네틱스 이론서를 출간했던 이바크넨코는 당시 키이우(Kiev) 기술대학교의 사이버네틱스 연구소 통합 제어 시스템학과 교수로 일하고 있었다. 그때 동료였던 라파(Valentin Lapa)와 독립변수와 종속변수의 데이터를 활용해 최선의 예측 모형을 다항식 모형으로 도출하는 학습 알고리즘 GMDH를 개발했다. 

그들은 이것을 신경망이라고 부르지는 않았지만, 이 학습 알고리즘은 각 계층에서 통계적 방법을 사용하는 심층 순방향 다중 신경망(Deep Feedforward Multilayer Perceptron)이었으며, 모델이 개선되며 최근까지도 딥러닝 네트워크에서 활용되고 있다. 지속적인 개선 연구로 이바크넨코는 1971년에 8개의 레이어로 구성된 딥러닝 네트워크를 구성하기도 했다. 그런 이유로 이바크넨코는 종종 딥러닝의 창시자로 간주하기도 한다. 

다시 설명하겠지만, 1969년 민스키가 로젠블래트의 퍼셉트론에 대한 한계를 증명할 때, 민스키는 그 한계가 이미 소비에트 연방의 우크라이나에서 해결된 문제임을 알지 못해서 그런 주장을 할 수 있었다. 사실 1960년대 말까지 퍼셉트론과 유사한 시스템인 신경망에 대한 연구 프로젝트는 100여개가 있었던 것으로 알려져 있다. 그러나 대부분의 연구는 주목을 받지 못했고, 연구자 간 교류도 거의 없었다. 그런 상황에서 민스키는 단층 신경망인 퍼셉트론의 한계를 주장했고, 결과적으로 미국 내에서는 신경망 발전이 중단됐다. 

그러나 그것은 미국에서의 일이었고, 해외에서는 계속 연구가 이뤄지고 있었다.     

문병성 싸이텍 이사 moonux@gmail.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지