데이터 레이크 & 데이터 웨어하우스

기술노트
Admin (토론 | 기여)님의 2025년 9월 6일 (토) 05:08 판 (Gemini 벌크 업로더로 자동 업로드)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

🏞️ 데이터 레이크 (Data Lake) & 데이터 웨어하우스 (Data Warehouse)

데이터 레이크데이터 웨어하우스는 기업의 방대한 데이터를 저장하고 분석하기 위한 두 가지 핵심적인 데이터 저장소(Repository) 아키텍처입니다. 둘 다 대용량 데이터를 저장하지만, 데이터의 형태, 처리 방식, 주요 사용자 등에서 명확한 차이가 있습니다.


🌊 데이터 레이크 (Data Lake)

데이터 레이크는 정형, 비정형, 반정형 등 모든 형태의 원본 데이터(Raw Data)를 있는 그대로 저장하는 거대한 중앙 저장소입니다. 데이터가 마치 강물을 통해 호수(Lake)에 모이듯이, 다양한 소스로부터 데이터를 필터링 없이 일단 저장하는 방식입니다.

  • 데이터 형태 : 모든 형태 (정형, 비정형, 반정형)
  • 스키마 : 데이터를 읽는 시점에 스키마를 정의 (Schema-on-Read)
  • 주요 사용자 : 데이터 과학자, 데이터 분석가
  • 목적 : 머신러닝, 데이터 탐색 등 아직 정해지지 않은 미래의 분석을 위한 원본 데이터 보관

🧱 데이터 웨어하우스 (Data Warehouse)

데이터 웨어하우스는 여러 소스로부터 수집된 데이터를 특정 목적에 맞게 정제하고, 사전에 정의된 스키마에 따라 구조화하여 저장하는 데이터베이스입니다. 잘 정리된 창고(Warehouse)처럼, 데이터가 특정 주제별로 분석하기 쉽게 정리되어 있습니다.

  • 데이터 형태 : 정형 데이터
  • 스키마 : 데이터를 쓰는 시점에 스키마를 정의 (Schema-on-Write)
  • 주요 사용자 : 비즈니스 분석가, 현업 실무자
  • 목적 : 비즈니스 인텔리전스(BI), 리포팅, 대시보드 등 정해진 비즈니스 분석

🏛️ 데이터 레이크하우스 (Data Lakehouse)

최근에는 데이터 레이크의 유연성과 데이터 웨어하우스의 분석 및 관리 기능의 장점을 결합한 데이터 레이크하우스라는 새로운 아키텍처가 등장했습니다. 데이터 레이크 위에 데이터 웨어하우스와 같은 관리 계층을 추가한 형태입니다.


💡 기술사 핵심 Point

  • 데이터 레이크는 '일단 모든 데이터를 저장'하는 것에, 데이터 웨어하우스는 '분석을 위해 데이터를 정리'하는 것에 중점을 둡니다.
  • 데이터 처리 과정은 보통 데이터 레이크에 원본 데이터를 수집 → ETL/ELT 파이프라인을 통해 데이터를 가공 → 데이터 웨어하우스나 데이터 마트에 적재하는 흐름으로 이어집니다.
  • 데이터 레이크는 잘못 관리하면 데이터의 출처나 품질을 알 수 없는 데이터의 늪('데이터 스웜프, Data Swamp')이 될 수 있으므로, '데이터 거버넌스'와 '메타데이터 관리'가 매우 중요합니다.