본문 바로가기

Microsoft Data & AI/Fabric 실습 1 - Lakehouse

02. 레이크하우스에 데이터 수집하기

기본 데이터 수집 방법 

Fabric 레이크하우스에 데이터를 로드하는 여러 가지 방법이 있습니다.

  • 업로드: 로컬 파일 또는 폴더를 레이크하우스에 업로드합니다. 그런 다음, 파일 데이터를 탐색 및 처리하고 결과를 테이블에 로드할 수 있습니다.
  • 데이터 흐름(Gen2): Power Query Online을 사용하여 다양한 원본에서 데이터를 가져오고 변환하며 레이크하우스의 테이블에 직접 로드합니다.
  • Notebooks: Fabric에서 Notebook을 사용하여 데이터를 수집, 변환하고 레이크하우스의 테이블 또는 파일에 로드합니다.
  • Data Factory 파이프라인: 데이터를 복사하고 데이터 처리 작업을 오케스트레이션하여 결과를 레이크하우스의 테이블 또는 파일에 로드합니다.

바로 가기를 사용하여 데이터에 액세스

레이크하우스 내에서 다른 스토리지 계정을 가리키거나 데이터 웨어하우스, KQL 데이터베이스 및 기타 레이크하우스와 같은 다른 패브릭 항목을 가리키는 바로 가기를 만들 수 있습니다. 바로 가기는 다른 스토리지 계정 또는 다른 클라우드 공급자에 있는 데이터를 얻어야 하는 경우에 유용하고, 바로 가기를 사용하면 데이터를 계속 외부 스토리지에 저장하면서 레이크하우스에 통합할 수 있습니다.

 

바로 가기는 레이크하우스와 KQL 데이터베이스 모두에서 만들 수 있으며 레이크에서는 폴더로 표시될 수 있습니다. 이를 통해 Spark, SQL, Real-Time Analytics 및 Analysis Services는 데이터를 쿼리할 때 모두 바로 가기를 활용할 수 있습니다.

 

바로 가기를 사용하는 방법은 다음 실습 시리즈에서 다뤄 보겠습니다. 

OneLake 바로 가기 - Microsoft Fabric | Microsoft Learn

 

바로 가기를 추가할 때는 레이크 하우스 탐색기 창에서 Files 폴더 끝의 더보기 ... 메뉴를 클릭하고 "새 바로 가기"를 클릭합니다.

 

새 바로 가기 창에서 OneLake와 같은 내부 원본 또는 Azure Data Lake Storage Gen2, Amazon S3와 같은 외부 원본의 데이터를 분석에 포함할 수 있습니다. 

 

로컬 파일을 업로드하여 데이터 수집하기 

포스팅에서는 Microsoft에서 제공하는 샘플 CSV파일을 업로드해서 실습해 보겠습니다. 

파일 URL : raw.githubusercontent.com/MicrosoftLearning/dp-data/main/sales.csv

참고: 파일을 다운로드하려면 브라우저에서 새 탭을 열고 URL을 붙여넣습니다. 데이터가 포함된 페이지의 아무 곳이나 마우스 오른쪽 버튼으로 클릭하고 다른 이름으로 저장을 선택하여 페이지를 CSV 파일로 저장합니다.

 

1. 레이크하우스 파일 폴더에 새 하위 폴더 만들기 

레이크하우스 탐색기 창에서 Files 폴더 끝의 더보기 ... 메뉴를 클릭하고 "새 하위 폴더"를 클릭하고 새 하위 폴더의 이름을 입력합니다. 

 

2. 하위 폴더에서 파일 업로드 하기 

새로 만들어진 하위 폴더 "data" 끝의 더보기 ... 메뉴를 클릭하고 업로드에서 "파일 업로드"를 클릭합니다. 

 

파일이 업로드 되면 업로드 창을 닫고 탐색기에서 data 폴더를 클릭하여 파일이 업로드되었는지 확인합니다. 

 

3. 테이블에 파일 데이터 로드하기

csv파일의 데이터를 SQL을 사용하여 쿼리할 수 있도록 테이블로 로드할 수 있습니다. 

 

sales.csv 파일 끝의 더보기 ... 메뉴를 클릭하고 "테이블에 로드"에서 "새 테이블"을 클릭합니다.

 

새 테이블의 이름을 입력하고 파일 데이터 내용에 따라 열 머리글과 구분 기호를 지정해 주고 "로드"를 클릭합니다.

 

4. 테이블 생성이 완료되면 탐색기 Tables 폴더 아래 생성된 테이블을 선택하여 로드된 데이터를 볼 수 있습니다. 

 

5. 생성된 테이블 끝의 더보기 ... 메뉴를 클릭하고 "파일 보기"를 클릭하면 이 테이블의 기본 파일을 확인할 수 있습니다. 

델타 테이블의 파일은 Parquet 형식으로 저장되며 테이블에 적용된 트랜잭션의 세부 정보가 기록되는 _delta_log라는 하위 폴더를 포함합니다.