[편집자주] 사진과 영상 등 디지털 이미지는 데이터 중심 사회에서 가장 기본이 되는 자료이다. 특히 4차산업혁명이 빠르게 진행되면서 영상의 영향력은 계속 커지고 있다. 이들을 자율적으로 다룰 수 있는 비전 AI 기술 또한 매우 중요한 기술 영역이다. 주요 핵심 분야인 의료 기술, 자율주행차의 핵심적인 기술이기도 하다. 이미지와 비전AI와 관련된 영역의 현재와 미래를 진단해본다.
사진, 영상 등을 담은 디지털 이미지 정보는 데이터를 다루는 입장에서 늘 골칫거리이다. 먼저 텍스트 정보에 비해 용량이 크기 때문에 분석과 보관이 쉽지 않다. 동영상은 4k로, 사진은 2천만 화소를 넘기게 되면서 직접적인 데이터의 양이 급격히 커지고 있다. 디지털 이미지 정보는 해상도가 곧 화질로 연결되고, 해상도는 엄청난 용량을 요구하게 된다.
무엇보다 컴퓨터 입장에서 이 정보들이 무엇을 담고 있는지, 어떤 이야기를 하고 있는지에 대해 파악하는 것이 쉽지 않다. 불과 몇 년 전까지, 그리고 지금도 어디에선가는 사람이 직접 이미지 하나하나에 대해 어떤 인물, 사물이 담겨 있고, 어떤 내용을 품고 있는지에 대해 상세한 태그를 달아 메타 정보를 함께 보관하고 이를 바탕으로 검색이나 분석이 이뤄지는 경우가 많다. 사람이 직접 입력하는 메타 정보는 번거롭고, 누락이 있다는 문제가 있기는 하지만 큰 주제에 대해서는 정확하기 때문에 데이터를 정리, 보관하는 입장에서는 대략의 정보를 찾고, 기억을 되살리는 데에 큰 도움이 된다.
하지만 매일 수십 장씩 찍는 사진들, 그리고 그 속에 뜻하지 않게 담기는 내용들을 빠지지 않고 체계적으로 기록하는 것은 엄청나게 번거로운 일일 뿐더러, 데이터를 정리하는 사람과 분석하는 사람에 따라 결과도 달라지기 쉽다. 결국 사람의 역량에 영향을 받기 때문에 데이터로서의 가치는 떨어질 수밖에 없다.
인공지능(AI) 기술로 이미지를 해석하는 비전 컴퓨팅이 일반 소비자 시장에서 가장 흥미롭게 다가서는 부분이 바로 이 사진, 영상의 맥락을 읽어내는 일이다. 가장 쉽게 손에 닿는 서비스는 구글의 ‘구글 포토(Google Photo)’다. 지난 2015년 등장한 이 사진 보관 서비스는 누구나 무료로 쓸 수 있지만 강력한 이미지 분석 결과를 보여준다. 무엇보다 텍스트 정보를 검색하는 것처럼 검색창에 ‘음식’, ‘서울’, ‘강아지’를 비롯해 ‘바닷가에서 찍은 가족사진’ 등의 검색어를 입력하면 내용에 맞는 사진들을 추려서 한 눈에 보여준다. 사람 얼굴도 한 명 한 명씩 분석해서 원하는 사람이 찍혀 나온 사진만 골라낼 수도 있고, 해당 인물에게 자동으로 사진을 공유해주는 기능도 더해졌다.
한 마디로 구글 포토는 사진을 일반 텍스트 정보처럼 관리할 수 있게 해주는 서비스다. 이용자는 그 어떤 메타 정보를 입력하지 않아도 구글 포토 내부적으로는 관련 정보들이 매우 상세하게 정리된다. 사진 뿐 아니라 동영상도 똑같은 방법으로 분석된다.
구글 포토는 2015년 5월 개발자 컨퍼런스인 구글I/O에서 ‘무료 사진 보관함’으로 처음 공개됐지만 그 해 11월 구글이 ‘텐서플로(TensorFlow)’를 발표하면서 실제 역할과 구글이 바라보는 방향성이 공개됐다. 바로 텐서플로의 비전 컴퓨팅 적용에 대한 직접적이고, 가장 적극적인 사례이기 때문이다. 이 사진 서비스는 분석 결과가 치명적이지 않고, 자율주행처럼 시간에 구애 받지 않고 천천히 결과를 낼 수 있기 때문에 리스크를 줄이면서도 머신러닝 프레임워크의 성능을 실험하기에 적절한 모델이었다.
구글 포토는 사진의 맥락을 읽어내기 위해 22개의 레이어를 이용한다. 외곽선, 색, 모양 등 이미지를 다양하게 해석하는 22가지 뉴럴 네트워크를 거쳐 이미지를 해석한다. 하지만 이 뉴럴 인셉션은 각각의 이미지가 어떤 의미를 품고 있는지 파악하지는 못하기 때문에 분석 결과들을 합쳐서 이미지의 결과를 이전의 학습 데이터와 대조해서 개인지, 고양이인지 판단할 수 있도록 학습해 맥락을 읽어내도록 한다. 구글은 인터넷에서 공개적으로 등록된 이미지 정보를 바탕으로 어떤 이미지인지 파악하는 것이다. 역시 많은 이미지를 대조, 분석하면서 학습을 이어가는 것이 중요하다.
물론 구글 포토도 초기에는 적지 않은 말썽과 논란을 빚어냈다. 흑인 여성의 사진을 고릴라로 인식하면서 이 머신러닝 모델이 인종적인 편견과 편향성을 띄고 있는 것 아니냐는 지적을 받기도 했다. 구글은 편향되게 학습시킨 것이 아니고 머신러닝이 스스로 학습한 결과라고 해명과 함께 사과를 했다. 머신러닝이 학습하는 모든 과정에 대해 즉각적으로 사람이 손을 대기 어렵지만 동시에 그게 책임을 피하는 것도 아니라는 점을 보여준 예다.
구글 포토는 정확도를 꾸준히 높여서 단순히 ‘개’가 아니라 다양한 품종들을 골라내기도 하고, 성장하는 아이의 변화하는 얼굴을 학습해 아기부터 성인으로 자라나는 모습을 모두 같은 사람으로 인식하는 등 더 다각도로 분석할 수 있도록 진화하고 있다.
이 이미지 분석은 만들어진 결과물 뿐 아니라 촬영 전, 그리고 촬영 과정에도 영향을 주고 있다. 최근 소니나 캐논, 니콘 등이 내놓고 있는 미러리스 디지털 카메라는 셔터를 누르기 전에 프레임에 잡힌 이미지의 맥락을 읽어 사람의 얼굴이나 사물을 파악한다. 이를 바탕으로 원하는 곳에 정확히 초점을 맞추고 사진의 밝기를 조정해 최적의 사진을 찍을 수 있도록 한다.
프로세서 성능이 뛰어난 스마트폰은 더 빠르게 진화하고 있다. 촬영 전의 이미지를 파악하는 것은 물론이고 셔터를 누르는 순간 센서로 여러 장의 이미지를 캡처하고, 이를 윤곽, 색, 밝기 등 10여가지로 해석해 한 장의 이미지로 만들어낸다.
애플은 아이폰에 이미지 처리 프로세서(ISP) 뿐 아니라 머신러닝을 위한 뉴럴 코어와 CPU, GPU 등을 모두 활용해 사진 찍는 전 과정에서 실시간으로 이미지 처리를 한다. 구글 역시 자체적으로 만드는 스마트폰인 ‘픽셀’에 별도의 이미지 처리 프로세서에 맡겨 최적의 사진을 만드는 방법을 쓰고 있고, 최근에는 이를 별도의 칩이 아니라 범용적으로 쓰이는 스마트폰용 프로세서로 처리할 수도 있게 했다.
AI 기반 이미지 처리 기술은 사진의 촬영부터 보관, 감상의 문화까지 송두리째 바꾸고 있다. 이제 사진을 찍으면서 조리개나 셔터 속도 등을 따져가며 밝기를 맞출 필요도 없고, 클라우드를 통해 보관과 검색, 공유까지 이뤄진다. AI로 사진은 단순히 ‘파일’의 형태가 아니라 모든 과정이 완전히 디지털로 전환하고 있다.
[관련기사] [스페셜리포트]ⓛ“세상을 더 잘 읽어 보자” 진화하는 컴퓨터 비전
