최근 데이터 플랫폼의 방향은 '데이터 레이크하우스' 입니다. 데이터웨어하우스, 데이터레이크의 단점을 보완하기 위해서 만들어진 개념입니다.
데이터레이크는 데이터웨어하우스로 수용하기 힘든 비정형 데이터 활용에 초점을 둔 아키텍처입니다. 초기의 데이터레이크는 데이터웨어하우스와 병존했는데, 데이터레이크와 DW을 단일 플랫폼으로 통합하자는 아이디어로 데이터레이크하우스가 고안되고 있습니다. 관리 부담을 줄이면서, 활용 수준을 높이는 게 주요 목표입니다.
아래는 데이터레이크하우스에 대한 설명입니다. zdnet을 참조하였습니다.
■ 데이터레이크하우스
조직 내에서 데이터 활용 수요가 늘어나고 다양해지면서, 관계형 형식으로 여러 컴퓨팅 노드에서 병렬로 방대한 양의 데이터를 처리할 수 있는 최신 데이터웨어하우스 아키텍처를 채택하기 시작했다. 동시에 데이터레이크를 사용해 반정형, 또는 비정형의 데이터를 수집하고 관리하게 됐다.
서로 다르지만 관련있는 두 시스템은 사일로에서 실행되므로 개발 시간, 운영 부담, 총소유비용(TCO) 등이 증가하게 된다. 비즈니스 요구사항을 충족하기 위해 두 시스템의 데이터에 접근해야 하는 경우 최종 사용자가 데이터를 통합하는 불편을 초래한다.
데이터레이크하우스 아키텍처는 단일 데이터 플랫폼에서 DW(데이터웨어하우스)와 데이터레이크의 장점을 결합하고, 초기 데이터 플랫폼 아키텍처의 기능을 단일한 통합 데이터 플랫폼(메달리온 아키텍처)으로 제공, 결합한다. 데이터레이크하우스는 모든 데이터와 분석, AI 및 머신러닝 워크로드를 통합하는 플랫폼이다.
데이터레이크하우스의 데이터 수명주기 관리
일반적으로 데이터레이크하우스는 데이터 수명주기를 기준으로 데이터를 여러 영역으로 분할하는 패턴을 갖는다. 데이터 수명주기는 '원시(Raw)'에서 '농축(Enriched)', '선별(Curated)'로 전환된다. 이 단계는 프로세스 중 발생하는 데이터의 가치 변화를 나타내고, 데이터 품질 향상을 뜻한다.
원시 데이터 영역은 여러 다양한 소스에서 가져오며, 이상적 형식이 아닐 수 있다. 원시 데이터 파일의 덤프나 초기 저장소로 활용된다. 데이터가 원래 형식으로 처음 캡처되는 곳이다.
농축 데이터 영역은 중간 데이터를 포함한다. 데이터는 빠른 쿼리나 디버깅 목적으로 쉽게 쿼리될 수 있게 정리된다. 쿼리하기 쉬운 정규화된 원시 데이터로 구성되도록 데이터에 처리를 적용할 수 있다.
선별 데이터 영역은 다른 서비스에서 사용할 수 있게 준비된 정리된 데이터를 포함한다. 여기 저장된 데이터는 일반적으로 자주 쿼리할 수 있는 집계된 주요 비즈니스 메트릭을 포함할 수 있다.
팀 구성원이 정기적 데이터 수집이나 변환 프로세스 외의 일부 추가 데이터를 가져오거나, 혹은 일부 데이터를 데이터레이크에 임시 저장하려는 경우가 있다.
워크스페이스 영역을 사용해 이 같은 수요에 대응할 수 있다. 이 영역은 특정 팀에 더 큰 가치를 제공하기 위해 각 개별 팀과 데이터 소비자에서 수집한 데이터(Bring Your Own)를 포함하는 영역이다.
데이터레이크하우스는 4단계로 데이터 수명 주기 영역을 포함하는데, 데이터를 더 선별된 형식으로 진행하면서 사용준비 정도에 따라 중간에 여러 영역을 포함하는 것도 가능하다. 데이터사이언스 영역, 스테이징 영역 등이 포함될 수 있다.
■ 델타레이크
델타레이크는 데이터레이크 위에 레이크하우스 아키텍처를 구축할 수 있는 오픈소스 프로젝트다. 데이터레이크에서 지원하지 않는 ACID 트랜잭션과 확장 가능한 메타데이터 처리를 제공한다. S3, ADLS, GCS, HDFS 등 기존 데이터레이크 위에 스트리밍 및 배치 데이터 처리를 통합한다.
출처 : https://zdnet.co.kr/view/?no=20230125114656
'공부는 평생하는 것이다 > 데이터엔지니어링' 카테고리의 다른 글
데이터 레거시란?? (1) | 2024.10.25 |
---|---|
AI로 본 2024년 데이터 엔지니어링 트랜드와 혁신 예측 (0) | 2023.11.29 |
[IT/DATA] 빅데이터 관련 직무 (0) | 2022.11.26 |
[IT/Data] 빅데이터 에코시스템 (0) | 2022.11.17 |
[IT/Data] 빅데이터 개요 (0) | 2022.11.15 |