본문 바로가기

Microsoft Data & AI/Fabric 기본

Fabric에서 Data Lakehouse 이해하기

※ 필자는 포스팅하는 현재도 Data Warehouse, Data Lake, Data Factory의 구분이나 용도를 정확히 구분하지 못하고 있습니다. 따라서 본 포스팅은 Data Lakehouse에 대한 정확한 정의나 가이드를 위한 포스팅이 아님을 미리 밝힙니다. 

 

Data Lakehouse에 대한 정의에 대해서는 다른 전문가들의 견해와 의견을 참고하시기 바랍니다. 

http://cloudinsight.net/data/data-lakehouse/

 

Data Lakehouse에 대한 이해 - 클라우드 인사이트

많은 회사들이 Data Warehouse와 Data Lake를 병행하여 사용하면서 Data 중복이나 Data Lake Data의 권한관리에 대한 요구사항이 발생하는 경험을 하고 있다. 이를 해결하기 위해서 Data Lakehouse (Data Warehouse+Da

cloudinsight.net

Microsoft Fabric의 기반은 Lakehouse 입니다. Lakehouse는 OneLake의 스케일링 가능한 스토리지 계층을 기반으로 빌드되고 빅 데이터 처리를 위해 Apache Spark 및 SQL 컴퓨팅 엔진을 사용합니다. 레이크하우스는 다음을 결합하는 통합 플랫폼입니다.

  • 데이터 레이크의 유연하고 스케일링 가능한 스토리지
  • 데이터 웨어하우스의 데이터를 쿼리하고 분석하는 기능

대부분의 기업에서는 Data Warehouse 에 이미 주문정보, 재고, 고객정보와 같은 트랙젝션 시스템의 정형화된 데이터를 저장하고 있습니다. 그리고 시대의 변화에 따라 소셜 미디어, 웹사이트 로그와 같은 비정형데이터 역시 수집되고 있습니다. 이처럼 여러 원본에서 수집된 다양한 형태의 데이터를 분석하여 의사결정을 내리거나 개선하기 위해 Fabric과 같은 Data Lakehouse 통합 플랫폼이 필요해졌다고 볼 수 있겠습니다. 

Lakehouse의 특징

 - 데이터베이스로 표시됩니다.

 - Delta 형식 테이블을 사용합니다.

 - 관계형 데이터 웨어하우스의 SQL 기반 분석 기능과 데이터 레이크의 유연성 및 스케일링 성능을 결합합니다. 

    >> 어떻게??

 - 모든 데이터 형식을 저장합니다. 

 - 다양한 분석 도구 및 프로그래밍 언어와 함께 사용할 수 있습니다.

 - 클라우드 기반 솔루션으로서 자동으로 스케일링되고 고가용성 및 재해 복구를 제공할 수 있습니다.

 

Lakehouse의 이점

  • 레이크하우스는 Spark 및 SQL 엔진을 사용하여 대규모 데이터를 처리하고 기계 학습 또는 예측 모델링 분석을 지원합니다.
  • 레이크하우스 데이터는 미리 정의된 스키마를 사용하는 것이 아니라 필요에 따라 스키마를 정의하는 schema-on-read format 형식으로 구성됩니다.
  • 레이크하우스는 데이터 일관성 및 무결성을 위해 Delta Lake 형식 테이블을 통해 ACID(Atomicity, Consistency, Isolation, Durability) 트랜잭션을 지원합니다.
  • 레이크하우스는 데이터 엔지니어, 데이터 과학자 및 데이터 분석가가 데이터에 액세스하고 데이터를 사용할 수 있는 단일 위치입니다.

Microsoft Fabric 레이크하우스

- Microsoft Fabric에서 레이크하우스를 만들 수 있습니다.

- 레이크하우스를 만든 후에는 로컬 파일, 데이터베이스 또는 API를 포함한 다양한 원본에서 모든 일반적인 형식의 데이터를 로드할 수 있습니다. 

- Microsoft Fabric에서 Data Factory 파이프라인 또는 데이터 흐름(Gen2)을 사용하여 데이터 수집을 자동화할 수도 있습니다. 

- 레이크하우스 자체 스토리지 외부의 Azure Data Lake Store Gen2 또는 Microsoft OneLake 위치와 같은 외부 원본의 데이터에 대한 Fabric 바로 가기를 만들 수 있습니다.

  >> 데이터 흐름(Gen2)은 Power Query를 기반으로 합니다

- Lakehouse Explorer를 사용하면 파일, 폴더, 바로 가기 및 테이블을 찾아보고 Fabric 플랫폼 내에서 해당 콘텐츠를 볼 수 있습니다.

- 레이크하우스에 데이터를 수집한 후 Notebook 또는 데이터 흐름(Gen2)을 사용하여 데이터를 탐색하고 변환할 수 있습니다.

 - Data Factory 파이프라인을 사용하여 Spark, 데이터 흐름 및 기타 작업을 오케스트레이션할 수 있으므로 복잡한 데이터 변환 프로세스를 구현할 수 있습니다.

 - 데이터를 변환한 후 SQL을 사용하여 쿼리하거나, 데이터를 사용하여 기계 학습 모델을 학습시키거나, 실시간 분석을 수행하거나, Power BI에서 보고서를 개발할 수 있습니다.

 - 데이터 분류 및 액세스 제어와 같은 데이터 거버넌스 정책을 레이크하우스에 적용할 수도 있습니다.

 

 

 

 웨어하우스와 레이크하우스에서 생성하는 모든 테이블은 델타 테이블입니다.

Delta는 Parquet 파일 위에 트랜잭션 로그를 적용하는 오픈 소스 형식입니다.

즉, 모든 테이블 데이터는 Parquet 파일(columnstore 형식을 사용하여 데이터가 저장되는 잘 압축된 파일)에 저장됩니다. 그러나 Parquet 파일은 변경할 수 없으므로 스토리지에 쓴 후에는 업데이트할 수 없습니다.

 

테이블에 레코드를 삽입, 업데이트 또는 삭제할 때마다 새 Parquet 파일을 작성해야 합니다.

델타 형식은 모든 Parquet 파일과 함께 트랜잭션 로그를 관리하여 관계형 데이터베이스에서와 마찬가지로 ACID 준수를 보장합니다.

요컨대, 델타 형식 덕분에 Parquet 파일을 사용하여 데이터를 저장할 수 있지만

모두 SQL Server와 같은 일반 관계형 데이터베이스와 유사하게 작동합니다.

'Microsoft Data & AI > Fabric 기본' 카테고리의 다른 글

Fabric의 Synapse 실시간 분석  (4) 2024.03.07
Fabric Data Warehouse 이해하기  (0) 2024.02.29
Microsoft Fabric 평가판 사용하기  (0) 2024.01.22
Microsoft Fabric 소개  (0) 2024.01.19