데이터 레이크(data lake)는 일반적으로 개체 Blob 또는 파일과 같은 자연(natural)/원시(raw) 형식으로 저장된 데이터의 시스템 또는 저장소이다.[1] 데이터 레이크는 일반적으로 소스 시스템 데이터, 센서 데이터, 소셜 데이터[2] 등의 원시 복사본과 보고, 시각화, 고급 분석 및 기계 학습과 같은 작업에 사용되는 변환된 데이터를 포함하는 단일 데이터 저장소이다. 데이터 레이크에는 관계형 데이터베이스(행 및 열), 반정형 데이터(CSV, 로그, XML, JSON), 비정형 데이터(이메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 정형 데이터가 포함될 수 있다.[3] 데이터 레이크는 "온프레미스"(조직의 데이터 센터 내) 또는 "클라우드"(아마존, 마이크로소프트, 오라클 클라우드 또는 구글과 같은 공급업체의 클라우드 서비스 사용)에 구축될 수 있다.
배경
당시 펜타호(Pentaho)의 최고 기술 책임자였던 제임스 딕슨은 원시 데이터에서 파생된 흥미로운 속성을 저장하는 소규모 저장소인 데이터 마트와 대조하기 위해 2011년에 이 용어를 만들었다.[4] 데이터 레이크를 홍보하면서 그는 데이터 마트에는 정보 사일로화와 같은 몇 가지 고유한 문제가 있다고 주장했다.[5]프라이스워터하우스쿠퍼스(PwC)는 데이터 레이크가 "데이터 사일로를 종식시킬 수 있다"고 말했다.[6] 데이터 레이크에 대한 연구에서 그들은 기업이 "분석을 위한 데이터를 추출하여 단일 하둡 기반 저장소에 배치하기 시작했다"고 언급했다.
예
많은 기업에서는 구글 클라우드 스토리지 및 아마존 S3와 같은 클라우드 스토리지 서비스나 아파치 하둡 분산 파일 시스템(HDFS)과 같은 분산 파일 시스템을 사용한다.[7] 데이터 레이크 개념에 대한 학문적 관심이 점차 높아지고 있다. 예를 들어 카디프 대학의 퍼스널 데이터레이크(Personal DataLake)는 개인 데이터를 수집, 정리, 공유하는 단일 지점을 제공하여 개별 사용자의 빅 데이터를 관리하는 것을 목표로 하는 새로운 유형의 데이터 레이크이다.[8]
이전 데이터 레이크(Hadoop 1.0)는 배치 중심 처리(맵리듀스) 기능이 제한되어 있었고 이와 관련된 유일한 처리 패러다임이었다. 데이터 레이크와 상호 작용하려면 지도 축소 및 아파치 피그, 아파치 스파크 및 아파치 하이브(원래는 배치 지향적임)와 같은 상위 수준 도구를 사용하여 자바에 대한 전문 지식이 있어야 했다.
↑Dixon, James (2010년 10월 14일). “Pentaho, Hadoop, and Data Lakes”. 《James Dixon’s Blog》. James Dixon. 2015년 11월 7일에 확인함. If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.