▲빅데이터 전문가들은 다크 데이터의 증가에 우려를 표한다(출처=셔터스톡)

많은 사람이 빅데이터의 개념에 대해 이미 들어봤을 것이다. 크기가 큰 수십만 개의 데이터를 짧은 시간에 처리할 수 있는데, 생성된 모든 데이터 중 20%만 수집하고 분석한다. 나머지 80%의 데이터는 웹사이트 미디어가 보고한 바와 같이 다크 데이터로 알려져 있으며 접근하거나 검색할 수 없다. 접근하거나 검색할 수 없다면 이 데이터의 주된 목적은 무엇이며 왜 전 세계 서버에서 엄청난 양의 저장 공간을 차지하고 있을까

다크 데이터에는 여러가지 예가 있는데 하나는 미디어다. 미디어에서 오디오, 비디오 및 이미지 파일은 자주 색인이 생성되거나 목록화되지 않으므로 중요한 통찰력을 얻기 어렵다. 녹화된 사람이나 비디오에 있는 구어체 대화와 같은 미디어 파일의 내용은 바로 파일 자체에 잠긴 상태로 유지된다.

소셜미디어 분석에 대한 다른 중요한 정보도 있다. 소셜미디어 분석은 지난 몇 년 동안 개선되었는데 이러한 데이터 형식은 사용자의 진입 지점에서 종료 지점까지만 수집할 수 있다. 만약 잠재 고객이 페이스북의 링크를 따라오고 방문된 웹사이트를 그룹 채팅으로 5명의 친구에게 보낼 경우 하나가 아니라 6개의 접점을 가진다는 것을 회사는 알지 못한다. 이는 낭비되는 기회를 의미하며 시정해야 할 필요가 있다.

마지막으로 검색 기록이 있는데, 특히 금융 서비스 및 에너지 산업 분야의 많은 회사에서 규제는 고객 및 직원 모두에게 끊임없는 관심사다. 법적 준수 표준이 변경되면 회사는 그들에게 가치 있는 무언가를 삭제하고 다시는 중요한 데이터를 얻을 수 없을 것이라고 걱정한다.

분석 및 자동화가 발전함에 따라 점점 더 많은 다크 데이터가 나타나기 시작했다. 예를 들어 인공지능은 음성 패턴을 이해하고 분석하는 데 뛰어난데 이 기능을 사용하면 파일에 메타데이터 및 각각의 오디어 파일이 실시간으로 자동 태그될 수 있다. 소셜 데이터 및 개인의 선호도는 훨씬 더 정확하게 추적될 수 있으며 이로 인해 회사는 소비자, 이해 관계자 및 각각의 구매 습관을 보다 잘 이해할 수 있다. 따라서 마케팅 담당자와 광고주는 비용을 절감하면서 더 많은 수익을 창출하는 고객 위치를 기반으로 제한적이고 구체적인 타켓 광고를 만들 수 있을 것이다.

우리가 현재 보고 있는 데이터의 확장과 증가는 빅데이터 기술의 시작일 뿐이다. IoT 및 웨어러블 장치가 일상생활 및 비즈니스 지향적인 삶에 계속 통합되면서 우리가 생산하는 데이터의 양은 증가할 수 있다.