Data Lake & Data Preparation

Data Lake란 ‘다양한 형태의 raw data들을 모은 저장소의 집합’으로 숙력된 데이터 사용자들이 이를 통해 원형 데이터들을 관찰하고 다양하게 가공/분석하여 인사이트를 찾을 수 있습지다.
하지만 사용자가 Data Lake에서 빅데이터를 분석해 인사이트를 얻거나 의사결정 지원을 위한 리포팅/서비스 애플리케이션을 만들고자 할 경우, 데이터 준비 과정에만 작업시간의 대부분(80%)이 소요됩니다.

중략…

Self-Service Data Preparation은 현재 Data Lake 관리 플랫폼의 구성요소 중 가장 트렌디한 기술입니다. 머신러닝/딥 러닝을 기반으로 데이터 정제/변환/탐색을 자동화해서 사용작 쉽고 빠르게 원하는 데이터를 준비할 수 있게 해주죠.

 

 

[다크 데이터 황금캐기] 이미 시작된 ‘다크 데이터’ 전쟁

미국 빅데이터 분석 전문업체 ‘팍사타’도 일찍이 다크 데이터 분석에 뛰어들었다.

이미 팍사타는 IT컨설팅업체 잘레시아와 합작해 분석 플랫폼 ‘데이터 프렙’으로 한국 시장에 진출했다. ‘데이터 프렙’이란 AI 기반 솔루 션이 다크 데이터를 추출하고 전처리(Preparation)해주는 기술이다. 야후, 씨티그룹, JP모건 등이 팍사타 솔루션을 도입해 사용 중이다. 확실한 전처리와 분석으로 잠들어 있는 다크 데이터의 실질 활용률을 높이고 있다.

김병식 잘레시아 부사장은 “다크 데이터 활용도가 높아지면서 내부 데이터를 비옥화할 수 있게 됐다”면서 “이를 360도에 가깝게 분석해 서비스, 품질 개선과 마케팅에 활용하는 등 경제 효과를 불러왔다”고 평했다.

데이터 전처리 과정을 자동화해주는 도구, SSDP(Self Service Data Preparation)

SSDP(Self Service Data Preparation)는 BI/DW에서의 데이터 전처리 도구(Data Preparation Tools)의 차세대 버전으로, 데이터 전처리 과정을 자동화 및 지능화해 주는 도구입니다.

비즈니스 사용자의 데이터 분석을 지원하는 기술인 ‘셀프서비스 BI’가 데이터 준비 절차인 ‘셀프서비스 데이터 프레퍼레이션’으로 확장된 것입니다. 로깅, 정제, 변환, 모델링 등)에서 요구되는 복잡도와 소요시간을 줄여주는 도구’라고 정의하고 있습니다.