본문 바로가기

Microsoft Data & AI/Fabric 기본

Fabric Data Warehouse 이해하기

Data Warehouse는 SQL 쿼리를 지원하기 위해 관계형 스키마를 기반으로 빌드된 분석 저장소입니다.

Microsoft Fabric을 사용하면 작업 영역에서 관계형 데이터 웨어하우스를 만들고 엔드투엔드 분석 솔루션의 다른 요소와 쉽게 통합할 수 있습니다.

 

Fabric의 데이터 웨어하우스는 테이블에서 데이터를 삽입, 업데이트 및 삭제하는 기능을 포함한 전체 SQL 시멘틱을 제공합니다. Fabric의 데이터 웨어하우스는 Delta 형식으로 저장되며 SQL을 사용하여 쿼리할 수 있는 레이크하우스를 기반으로 빌드되므로 고유합니다. 

 

최신 데이터 웨어하우스를 빌드하는 프로세스는 일반적으로 다음과 같이 구성됩니다.

  • 데이터 수집 - 원본 시스템에서 데이터 웨어하우스로 데이터 이동
  • 데이터 스토리지 - 분석에 최적화된 형식으로 데이터 저장
  • 데이터 처리 - 분석 도구에서 사용할 수 있는 형식으로 데이터 변환
  • 데이터 분석 및 제공 - 데이터를 분석하여 인사이트를 얻고 이러한 인사이트를 비즈니스에 전달

Data Warehouse 디자인

1. 테이블

데이터 웨어하우스의 테이블은 일반적으로 대량의 데이터에 대한 효율적이고 효과적인 분석을 지원하는 방식으로 구성됩니다.

Fact Table은 분석하려는 숫자 데이터가 포함됩니다.  (예 : 주문정보)

팩트 테이블은 일반적으로 많은 수의 행이 있으며 분석을 위한 데이터의 기본 원본입니다.

 

Dimension tables은 Fact Table의 데이터에 대한 설명 정보가 포함되어 있습니다. (예: 고객정보)

Dimension tables은 일반적으로 적은 수의 행이 있으며 팩트 테이블의 데이터에 대한 컨텍스트를 제공하는 데 사용됩니다.   

Data Warehouse 스키마 디자인

데이터 웨어하우스는 다음 예제와 같이 팩트 테이블이 차원 테이블과 직접 관련되는 Star 스키마로 구성되는 경우가 많습니다.

수준이 많거나 일부 정보가 다른 항목에서 공유되는 경우 대신 Snowflake 스키마를 사용하는 것이 합리적일 수 있습니다. 예를 들면 다음과 같습니다.

 

Data Warehouse vs Data Lakehouse

Fabric의 레이크하우스는 데이터 레이크를 통해 데이터베이스처럼 작동하는 파일, 폴더, 테이블 및 바로 가기의 컬렉션입니다. Spark 엔진 및 SQL 엔진에서 빅 데이터 처리를 위해 사용되며 오픈 소스 Delta 형식 테이블을 사용하는 경우 ACID 트랜잭션을 위한 기능을 포함합니다.

 

Lakehouse는 데이터를 저장하기에 좋은 위치이지만 비즈니스 사용자에게 데이터를 제공하기에 가장 좋은 위치는 아닙니다. 이를 위해 Data Warehouse가 필요합니다.

 

Data Warehouse를 사용하면 Lakehouse의 Lake View에서 Data Warehouse가 제공하는 SQL환경으로 전환할 수 있습니다. 

Lakehouse는 테이블을 읽고 SQL 분석 엔드포인트를 사용할 수 있는 기능이 있는 반면 Warehouse는 데이터를 조작할 수 있습니다.