728x90
반응형
데이터 엔지니어를 시작하게 되면 가장 먼저 배우게 되는 것이 바로 ETL 이란 개념입니다.
ETL 이란
ETL(Extract, Transform, Load)은 컴퓨팅 및 데이터 관리에서 데이터 웨어하우스 구축 및 운영에 핵심적인 데이터 처리 과정으로, 다음과 같은 단계를 포함합니다.
1. 추출(Extract)
동일 기종 또는 타기종 데이터 소스(예: 관계형 데이터베이스, CSV 파일, API, 로그 파일 등)에서 데이터를 추출합니다. 이 단계에서는 원시 데이터를 수집하고 다양한 시스템에서 데이터를 가져오는 데 초점을 맞춥니다.
2. 변환(Transform)
추출된 데이터를 분석 및 조회에 적합하도록 가공하거나 변환합니다. 이 단계에서 수행되는 작업에는 데이터 정제, 포맷 변환, 집계, 필터링, 계산 등이 포함됩니다. 데이터의 품질을 높이고 일관성을 확보하는 과정입니다.
3. 적재(Load)
변환된 데이터를 최종 저장소에 적재합니다. 이 저장소는 주로 운영 데이터 스토어(ODS), 데이터 마트, 또는 데이터 웨어하우스일 수 있습니다. 적재 단계는 데이터를 분석 애플리케이션이나 비즈니스 인텔리전스(BI) 도구에서 사용할 수 있도록 준비하는 역할을 합니다.
이 과정은 대량의 데이터를 효과적으로 처리하고 분석 가능한 형태로 변환하기 위해 필수적이며, 현대 데이터 중심 비즈니스에서 중요한 역할을 합니다.
별거 아닌 기본적인 개념이지만 처음 데이터엔지니어링을 시작하는 사람들은 반드시 배워야 하는 개념으로 이 개념을 알아야지 데이터 라이브사이클을 이해 할 수 있습니다.
728x90
반응형
'공부는 평생하는 것이다 > 데이터엔지니어링' 카테고리의 다른 글
2025년도 데이터 자격 검정 일정 (0) | 2025.01.26 |
---|---|
데이터엔지니어를 어떻게 준비해야 할까? : 처음 공부하는 이들에게 (2) | 2024.11.21 |
데이터 레거시란?? (1) | 2024.10.25 |
AI로 본 2024년 데이터 엔지니어링 트랜드와 혁신 예측 (0) | 2023.11.29 |
[IT/DATA] 데이터 레이크 하우스란? (0) | 2023.09.11 |