Data Lake & Data Preparation

Data Lake란 ‘다양한 형태의 raw data들을 모은 저장소의 집합’으로 숙력된 데이터 사용자들이 이를 통해 원형 데이터들을 관찰하고 다양하게 가공/분석하여 인사이트를 찾을 수 있습지다.
하지만 사용자가 Data Lake에서 빅데이터를 분석해 인사이트를 얻거나 의사결정 지원을 위한 리포팅/서비스 애플리케이션을 만들고자 할 경우, 데이터 준비 과정에만 작업시간의 대부분(80%)이 소요됩니다.

중략…

Self-Service Data Preparation은 현재 Data Lake 관리 플랫폼의 구성요소 중 가장 트렌디한 기술입니다. 머신러닝/딥 러닝을 기반으로 데이터 정제/변환/탐색을 자동화해서 사용작 쉽고 빠르게 원하는 데이터를 준비할 수 있게 해주죠.