본문 바로가기
공부는 평생하는 것이다/데이터엔지니어링

데이터 엔지니어의 시작 : ETL 이란?

by IT Daily Life 2024. 12. 3.
728x90
반응형

 

 

 

 

데이터 엔지니어를 시작하게 되면 가장 먼저 배우게 되는 것이 바로 ETL 이란 개념입니다.

 

ETL 이란

ETL(Extract, Transform, Load)은 컴퓨팅 및 데이터 관리에서 데이터 웨어하우스 구축 및 운영에 핵심적인 데이터 처리 과정으로, 다음과 같은 단계를 포함합니다.

 

1. 추출(Extract)

 

동일 기종 또는 타기종 데이터 소스(예: 관계형 데이터베이스, CSV 파일, API, 로그 파일 등)에서 데이터를 추출합니다. 이 단계에서는 원시 데이터를 수집하고 다양한 시스템에서 데이터를 가져오는 데 초점을 맞춥니다.

 

 

2. 변환(Transform)

 

추출된 데이터를 분석 및 조회에 적합하도록 가공하거나 변환합니다. 이 단계에서 수행되는 작업에는 데이터 정제, 포맷 변환, 집계, 필터링, 계산 등이 포함됩니다. 데이터의 품질을 높이고 일관성을 확보하는 과정입니다.

 

 

3. 적재(Load)

 

변환된 데이터를 최종 저장소에 적재합니다. 이 저장소는 주로 운영 데이터 스토어(ODS), 데이터 마트, 또는 데이터 웨어하우스일 수 있습니다. 적재 단계는 데이터를 분석 애플리케이션이나 비즈니스 인텔리전스(BI) 도구에서 사용할 수 있도록 준비하는 역할을 합니다.



이 과정은 대량의 데이터를 효과적으로 처리하고 분석 가능한 형태로 변환하기 위해 필수적이며, 현대 데이터 중심 비즈니스에서 중요한 역할을 합니다.

 

별거 아닌 기본적인 개념이지만 처음 데이터엔지니어링을 시작하는 사람들은 반드시 배워야 하는 개념으로 이 개념을 알아야지 데이터 라이브사이클을 이해 할 수 있습니다.

 

728x90
반응형