다크 데이터(dark data)는 다양한 컴퓨터 네트워크 운영을 통해 얻는 데이터이지만 의사 결정이나 이해를 위한 수단으로 사용되지는 않는다.[1][2] 데이터를 수집하는 조직의 능력은 조직이 데이터를 분석할 수 있는 스루풋을 초과할 수 있다. 일부의 경우 조직은 데이터가 수집되고 있는 것조차 모를 수 있다.[3] IBM은 센서와 아날로그-디지털 변환회로가 수집한 데이터의 대략 90%가 사용되지 않는다고 추산한다.[4]
산업 부문에서 다크 데이터는 센서와 텔레매틱스가 수집한 정보를 포함할 수 있다.[5]
여러 이유로 조직은 다크 데이터를 보유하며 대부분의 기업은 자신들의 데이터 중 1%만을 분석하고 있다고 추산된다.[6] 규제 순응과 기록 유지를 위해 저장되기도 한다.[7][1] 일부 조직은 정보 처리를 위해 더 나은 분석 및 비즈니스 인텔리전스 기술을 보유한다면 다크 데이터가 미래에 유용할 것으로 믿는다.[3] 스토리지의 가격이 저렴하기 때문에 데이터 저장은 쉬운 편이다. 그러나 데이터를 저장하고 확보하는 일은 보통 잠재적인 이익보다는 더 큰 비용(심지어는 리스크)이 잇따를 수 있다.[1]
각주