카르파티 수석, 지난달 CVPR2021서 ‘테슬라 비전’ 소개
실시간 적응력 뛰어난 8개 카메라·신경망 처리로 이뤄져
레이더 빼고 북미에서 생산하는 모델3·모델Y에 탑재

(사진=셔터스톡).
(사진=셔터스톡).

테슬라의 안드레아 카르파티(Andrej Karpathy) AI·자율주행 연구개발 책임 수석이 자사 딥러닝 시스템에 대해 “레이더 센서보다 100배 이상 뛰어난 수준에 도달했다”고 밝혔다. 카르파티 수석은 지난달 온라인으로 개최된 CVPR2021(국제 컴퓨터 비전 및 패턴인식 학술대회)에 참석해 테슬라가 새로 출하하는 차량에 센서를 탑재하지 않는 이유에 관해 설명했다.

“일반 컴퓨터 비전 시스템이 센서보다 더 효율적”

심층신경망(DNN)은 자율주행 기술 스택을 구성하는 주요 요소다. DNN은 차내에서 카메라 피드를 분석해 주변 도로, 표지판, 자동차, 장애물, 사람을 찾아준다. 하지만 딥러닝은 물체 감지 과정에서 실수할 가능성도 있다. 웨이모를 비롯한 대부분 자율주행차 제조업체들이 레이저 광선을 사방으로 방출해 주변 환경을 3D로 보여주는 라이다(LiDAR)를 사용하는 이유다.

그러나 테슬라는 이전부터 라이다 사용에 거부감을 표시해왔다. 일론 머스크 최고경영자(CEO)는 2019년 업체 자율주행 시연행사 자리에서 라이다를 가리켜 “멍청이들의 심부름(LiDAR is a fool’s errand)”이라고 비난하며 부정적인 생각을 드러내기도 했다.

CVPR2021에서 카르파티 수석 역시 “자율주행 스택에 라이다를 추가하는 것 자체가 매우 복잡하다”고 말했다. 그에 따르면 “라이다를 사용할 경우 환경을 미리 매핑한 후 고해상도 지도를 만들고 도로 위 모든 차선과 차선 연결 방법, 신호 등을 삽입해야” 한다. 그러나 이렇게 자율주행차가 다닐 모든 장소를 정밀하게 지도화하기란 매우 어려운 일이다. 카르파티 수석은 “이러한 고화질 라이다 지도를 수집·구축·유지하는 것은 확장력이 떨어지는 비효율적인 작업”이라고 주장했다.

이 같은 이유로 테슬라는 자사 자율주행 시스템 제작 시 라이다를 탑재하지 않았다. 또 올해 들어 반자율주행 기능 오토파일럿(Autopilot)으로 인한 사고가 여러 차례 발생하자 지난 5월, 앞으로 북미 시장에 출하되는 모델3과 모델Y에 레이더(Radar) 센서를 제거하고 8개의 카메라와 신경망 처리로 이루어진 ‘테슬라 비전(Tesla Vision)’이 오토파일럿과 완전자율주행(FSD) 기능을 대신할 것이라고 발표했다.

북미 지역에서 생산하는 테슬라 모델3. 레이더 센서가 배제되고 심층신경망 기반의 ‘테슬라 비전(Tesla Vision)’이 탑재됐다. (사진=셔터스톡). 
북미 지역에서 생산하는 테슬라 모델3. 레이더 센서가 배제되고 심층신경망 기반의 ‘테슬라 비전(Tesla Vision)’이 탑재됐다. (사진=셔터스톡). 

카르파티 수석은 테슬라 비전 시스템을 두고 “일반 컴퓨터 비전 시스템을 사용하면 더는 차량에 보조 기어가 필요하지 않다”며 “현재 테슬라에서 새로 제조하는 차량은 레이더 센서 없이도 스스로 주행한다”고 말했다. 이어 “우리의 딥러닝 시스템은 레이더보다 100배 이상 뛰어난 수준에 도달해 사전에 정의된 정보 없이도 차 안에서 일어나는 모든 첫 경험에 유연하게 대처하고 주행한다”고 강조했다.

‘테슬라 비전(Tesla Vision)’ 어떻게 만들었나

테슬라 자율주행팀의 엔지니어들은 센서보다 완벽하게 물체, 속도를 감지하는 딥러닝 시스템을 개발하기 위해 10초짜리 동영상 100만 개와 경계 박스, 깊이, 속도 등을 담은 60억 개 데이터를 모았다. 총 용량은 무려 1.5페타바이트(PB). 이 방대한 데이터셋을 라벨링하는 것도 결코 쉬운 일이 아니다. 아마존 터크 같은 온라인 플랫폼을 이용해 수동으로 주석을 달 수도 있지만 이 경우 비용도 만만치 않을 뿐더러 프로세스 속도도 더디다.

때문에 테슬라팀은 신경망과 레이더 데이터를 결합한 자동 라벨링 기술을 사용했다. 카르파티 수석에 따르면 오프라인으로 데이터셋에 주석을 달 수 있어 신경망은 실시간으로 비디오를 실행하거나 예측과 실제 정보를 비교하고, 매개변수를 조정한다. 이 같은 오프라인 라벨을 사용해 엔지니어들은 기존 애플리케이션에서 사용하지 못했던 물체 감지 네트워크를 적용했다. 이 과정에서 정밀도를 향상시키기 위해 레이더 센서 데이터를 사용하기도 했다.

카르파티 수석은 CVPR2021에서 이렇게 완성된 테슬라 신경망이 다양한 시야 조건에서 지속적으로 물체를 감지하는 영상을 공개했다. 영상을 보면 신경망은 운전 중 잔해, 먼지, 눈보라 등에도 흔들림없이 그 기능을 일관되게 유지한다.

안드레아 카르파티 수석이 지난달 온라인으로 열린 CVPR2021에서 공개한 ‘테슬라 비전(Tesla Vision)’ 구동 영상. 
안드레아 카르파티 수석이 지난달 온라인으로 열린 CVPR2021에서 공개한 ‘테슬라 비전(Tesla Vision)’ 구동 영상. 

이러한 과정을 거듭해 테슬라 비전을 완성하는 데만 4개월이 걸렸다. 카르파티는 이 기간에 “총 7번의 데이터 엔지니어링 과정을 거쳤다”고 말했다. “처음에는 신경망을 훈련시킨 데이터셋으로, 그런 다음 실제 자동차에 그림자 모드로 딥러닝을 배치하고 트리거를 이용해 불일치, 특수 경우를 시나리오로 만들어 훈련시켰다”고 덧붙였다. 이후 오류를 수정하고 필요에 따라 새 데이터를 세트에 추가하는 작업이 이어졌다.

신경 네트워크만으로 완벽한 자율주행 구현 가능할까

(사진=셔터스톡).
(사진=셔터스톡).

순수 컴퓨터 비전 기반의 신경망이 센서 도움 없이 실시간으로 범위를 탐색하고 그 깊이를 추정·예측한다는 데 불안감을 느끼는 이들이 적지 않다. 이는 테슬라 사내에서도 마찬가지다. 때문에 업체는 현재 북미 지역에서 생산되는 단 두 가지 모델에만 테슬라 비전 시스템을 적용하고 있다. 카르파티 수석도 “가장 큰 문제는 인공신경망이 기존 센서와 동일한 기능을 할 수 있냐는 것”이었다며 “지난 몇 달 동안 이 문제에 관해 연구하면서 내린 내부적 결론은 ‘긍정적’이었다”고 부연했다.

그러나 딥러닝이 자율주행의 모든 어려움을 극복하기에 충분할지는 여전히 의문이다. 펜실베이니아주에 소재한 소프트웨어 개발업체 엣지케이스 리서치의 필립 쿠프만 최고기술책임자(CTO)는 “테슬라가 지금보다 나은 자율주행 기능을 개발하고 싶다면 한 가지 기술만 고집해선 안된다”고 강조했다.

쿠프만 CTO는 “물론 심층신경망(DNN)이 실시간 적응력이 뛰어나고 효율적인 것은 사실이지만 동시에 학습되지 않은 사고를 맞닥뜨렸을 때 대처 능력이 확인되지 않는다”며 “더욱 안전한 자율주행차를 만들려면 카메라도, 레이더도, 라이다도 모두 필요하다”고 말했다.

AI타임스 박혜섭 기자 phs@aitimes.com

 

[관련기사] 테슬라, 엔비디아 ‘암페어’ A100 탑재한 슈퍼컴 공개..."세계 5위 슈퍼컴 가능"

[관련기사] [스페셜리포트]②자율주행 센서를 바라보는 기술, 달라지는 흐름