본문 바로가기
공부는 평생하는 것이다/데이터엔지니어링

[IT/Data] 빅데이터 개요

by IT Daily Life 2022. 11. 15.
728x90
반응형

IT일상생활 로고
IT일상생활

 

빅데이터란 말은 누구나 들어보았을 것입니다. 하지만 막상 빅데이터를 공부하려고 하면 막막하기만 합니다. 하둡, HDFS, Spark, Kafka, Hive, S3, Airflow, BI, Nifi, 파이썬 등등 생소한 단어들이 쏟아집니다. 그래서 처음 공부를 시작하는 초보 입장에서는 개념도 잡히지 않을뿐더러 어디부터 어떻게 공부할지 감조차 잡기 어려운 것이 사실입니다. 

빅데이터는 하나의 기술이 아니라 여러 솔루션과 기술들이 합하여 하나의 데이터 파이프라인이 완성하는 기술 분야이기 때문에 큰 숲을 먼저 보지 않으면 이해하기가 매우 힘듭니다. 빅데이터를 처음 공부하려면 빅데이터 배경부터 기본적 용어와 흐름까지 전체 숲을 볼 수 있도록 해야 합니다.

 

 

빅데이터 배경


빅데이터라는 단어가 대중화되기 시작한 것은 데이터 처리에 분산 시스템을 도입하기 시작하면서입니다. 빅데이터 이전에 기업에서는 엔터프라이즈 데이터 웨어하우스(EDW) 를 도입했습니다. 데이터를 수집했고, 그것을 분석함으로써 업무 개선과 경영 판단의 자료로 활용되었습니다.

분산 시스템의 발전에 따라, 기존이라면 EDW를 사용하는 경우에도 Hadoop을 사용하는 경우가 증가했습니다. 다수의 데이터 분석 도구가 Hadoop에 대한 대응을 표명하여 대량의 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었습니다. 그 결과 Hadoop의 도입을 기술적으로 지원하는 비즈니스가 성립하게 되었습니다. 그리고 그때 사용하게 된 데이터가 바로 '빅데이터' 입니다.

 

전통적인 EDW에서도 대량의 데이터를 처리할 수 있습니다. 그러나 EDW는 안정적인 성능을 실현하기 위해서 하드웨어와 소프트웨어가 통합된 통합 장비가 제공되어야 합니다. 그러나, 소프트웨어나 하드웨어도 오픈 소스 형태의 Hadoop이나 분석용 패키지인 R과 분산병렬처리기술, 클라우드 컴퓨팅 등을 활용하면 기존의 비싼 스토리지와 데이터베이스에 기반한 고비용의 데이터웨어하우스를 구축하지 않더라도 효율적인 시스템 운용이 가능합니다. 

 

인터넷과 모바일이 전세계로 확장되면서 정형/비정형 데이터들이 방대한 양으로 발생과 아울러 분산기술의 발전은 다양한 분야에서 활용 할 수 있게 됩니다.

 

빅데이터 용어


하둡은 빅데이터 기술의 시작점입니다. 하둡이 맵리듀스HDFS 기술을 소개하면서 빅데이터를 적당한 가격으로 분석할 수 있게 되었습니다. 여기에 하둡이 오픈 소스가 되면서 하둡을 기반으로 하는 하둡 에코시스템들이 다양하게 나타나면서 빅데이터 분석 기술이 폭발적으로 발전할 수 있게 되었습니다.

 

* 맵리듀스 

- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델이자 소프트웨어 프레임워크이다.

- 맵리듀스 프로그래밍 모델은 사용자가 Map과 Reduce 두 함수를 이용하여 데이터를 처리하도록 한다.

 

* HDFS 

- 대규모 데이터를 분산, 저장, 관리하기 위한 분산 파일 시스템으로서, 저장하고자 하는 파일을 블록 단위로 나누어 분산된 서버에 저장된다.

- 배치작업에 적합하도록 설계되어 있고, 빠른 처리보다 높은 데이터 처리량에 중점을 둔다.

 

HiveSQL을 이용하여 맵리듀스를 실행할 수 있게 해주는 기술입니다. SQL을 이용하기 때문에 개발자가 아니어도 쉽게 데이터를 분석할 수 있습니다. 그리고 파일의 정보의 물리적인 구조를 테이블 형태의 논리적 구조로 설명할 수 있기 때문에 데이터 분석이 더욱 쉬워집니다.

 

 

데이터의 형태


수집 형태

* 정형 - DB, CSV, 엑셀 등 컬럼 단위의 명확한 구분자와 형태가 존재하는 데이터

* 반정형 - XML, HTML, JSON 등 메타데이터나 스키마가 존재하는 데이터

* 비정형 - 동영상, SNS메시지, 사진, 오디오, 음성 데이터 처럼 형태가 존재하지 않는 데이터

수집 방식

* 배치 - 주기적으로 수집 처리되는 데이터

* 실시간 - 입력 등 이벤트 발생과 동시에 처리되는 데이터

빅데이터 에코시스템

빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거칩니다. 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되고, 이 기술들을 통틀어 빅데이터 에코 시스템(Bigdata Eco System)이라고 합니다.

 

분석 형태


대화형 분석

* 사용자가 입력한 쿼리에 바로 반응하여 결과를 반환하는 분석 방법 (대화형 대시보드)

배치 분석

* 저장된 데이터를 일정한 주기로 분석하는 방법 (일/주/월간 보고서)

실시간 분석

* 사용자의 여러 입력이 실시간으로 저장되고 분석하는 방법 (결제/사기 경고 1분 측정)

기계 학습

* 기계 학습 알고리즘을 이용해 예측 모델을 생성하는 방법 (심리 분석, 예측 모델)

 

 

(빅)데이터 처리단계


데이터 처리단계는 데이터 파이프라인이라 불리며, 데이터 수집부터 분석까지 데이터의 전반적인 흐름을 말합니다. 데이터 파이프라인에 대해서 이해가 있어야 데이터라는 숲을 볼 수 있습니다.

수집

* 데이터를 수집하는 단계

* 정형, 비정형, 반정형 데이터 수집

정제

* 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계

* 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요함

적재

* 정제된 데이터를 분석하기 위해 적재하는 단계

* RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재

분석

* 적재한 데이터를 의미 있는 지표로 분석하는 단계

* 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계

시각화

* 분석한 데이터를 도표로 보여주는 단계

* 데이터를 이해하기 쉬운 차트로 분석하는 단계

 

 

 

 

728x90
반응형