본문 바로가기

Microsoft Data & AI/Fabric 실습 1 - Lakehouse

(8)
08. 스트리밍 데이터에 델타 테이블 사용 Delta Lake는 스트리밍 데이터를 지원합니다. 델타 테이블을 사용해서 가상의 IoT 디바이스의 스트리밍 데이터를 싱크해 봅니다. from notebookutils import mssparkutils from pyspark.sql.types import * from pyspark.sql.functions import * # 폴더 생성하기 inputPath = 'Files/streamdata/' mssparkutils.fs.mkdirs(inputPath) # 폴더에서 데이터 조회해서 스트림 생성하기 jsonSchema = StructType([ StructField("device", StringType(), False), StructField("status", StringType(), False) ])..
07. Spark에서 델타 테이블 작업 델타 테이블(또는 델타 형식 파일)을 사용하여 여러 가지 방법으로 데이터를 검색하고 수정할 수 있습니다. Spark SQL 사용 Spark의 델타 테이블에서 데이터를 다루는 가장 일반적인 방법은 Spark SQL을 사용하는 것입니다. spark.sql 라이브러리를 사용하여 다른 언어(예: PySpark 또는 Scala)에 SQL 문을 포함할 수 있습니다. 이전 포스팅에서 생성된 newtable 테이블에 행을 추가해봅니다. 2024.01.30 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 15. Fabric의 Delta Lake spark.sql("INSERT INTO newtable VALUES (1, 'Widget', 'Accessories', 2.99)") Spark 작업 성공..
06. Fabric의 Delta Lake 1. Delta Lake 이해 Delta Lake는 Spark 기반 데이터 레이크 처리에 관계형 데이터베이스 의미 체계를 추가하는 오픈 소스 스토리지 계층입니다. Microsoft Fabric 레이크하우스의 테이블은 Delta 테이블로, 레이크하우스 사용자 인터페이스의 테이블에 있는 삼각형 Delta(▴) 아이콘으로 표시됩니다. Delta 테이블은 Delta 형식으로 저장된 데이터 파일에 대한 스키마 추상화입니다. 각 테이블에 대해 레이크하우스는 Parquet 데이터 파일이 포함된 폴더와 트랜잭션 세부 정보가 JSON 형식으로 기록되는 _delta_Log 폴더를 저장합니다. Delta 테이블을 사용하면 쿼리 및 데이터 수정을 지원하는 관계형 테이블. Apache Spark를 사용하면 CRUD(만들기, 읽..
05. 레이크하우스에서 보고서 만들기 레이크하우스에 생성된 테이블은 Power BI의 데이터 모델을 정의하는 기본 데이터 세트 자동으로 추가됩니다. 따라서 레이크하우스의 테이블에서 Power BI 보고서를 바로 만들 수 있습니다. 1. SQL 분석 엔드포인트 모드의 하단에서 모델 탭을 클릭하면 데이터세트의 데이터 모델 스키마가 표시됩니다. 2. 상단 메뉴에서 보고 탭을 선택합니다. 그런 다음 "새 보고서" 버튼을 선택합니다. 홈 탭에도 새 보고서 버튼이 동일하게 있습니다. 3. 오른쪽의 데이터 패널 에서 "sales" 테이블을 확장합니다. 그런 다음 Item과 Quantity필드를 선택합니다. (보고서 페이지 크기가 너무 작으므로 필터와 시각화 패널은 사용하지 않는 동안 접어두어도 됩니다.) 4. 시각화 패널을 열어서 묶은 가로 막대형 차트..
04. 레이크하우스에서 시각적 쿼리 만들기 시각적 쿼리 만들기 Power BI 경험이 있는 데이터 분석가는 파워 쿼리 기술을 적용하여 시각적 쿼리를 만들 수 있습니다. (페이지의 오른쪽 상단에서 레이크하우스에서 SQL 엔드포인트로 전환해야 시각적 쿼리를 사용할 수 있습니다. 이전 포스팅 참고 2024.01.23 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 06. 레이크하우스에서 SQL 쿼리 사용하기 ) 1. 새 시각적 쿼리 단추를 클릭합니다. 2. Sales 테이블을 편집기 창으로 끌어옵니다. 테이블을 끌어다 놓으면 아래처럼 시각적 쿼리 편집창이 표시됩니다. 리본 메뉴에는 Power BI에서 익숙하게 사용했던 시각적 쿼리 단추가 배치되어 있으며, 1) 상단에는 쿼리 편집 단계가 표시됩니다. 단계 끝의 + 아이콘을 클릭하여..
03. 레이크하우스에서 SQL 쿼리 사용하기 레이크하우스를 만들고 그 안에 테이블을 정의하면 SQL 문을 사용하여 테이블을 쿼리할 수 있는 SQL 엔드포인트가 자동으로 생성됩니다. SQL을 사용하여 테이블 쿼리 1. 레이크하우스 페이지의 오른쪽 상단에서 레이크하우스에서 SQL 엔드포인트로 전환합니다. 그런 다음, SQL 쿼리 엔드포인트가 열릴 때까지 잠시 기다립니다. 2. 새 SQL 쿼리 단추를 사용하여 새 쿼리 편집기를 열고 다음 SQL 쿼리를 입력합니다. SELECT Item, SUM(Quantity * UnitPrice) AS Revenue FROM sales GROUP BY Item ORDER BY Revenue DESC; 3. ▷ Run 버튼을 사용하여 쿼리를 실행하고 결과를 보면 각 제품의 총 수익이 표시됩니다.
02. 레이크하우스에 데이터 수집하기 기본 데이터 수집 방법 Fabric 레이크하우스에 데이터를 로드하는 여러 가지 방법이 있습니다. 업로드: 로컬 파일 또는 폴더를 레이크하우스에 업로드합니다. 그런 다음, 파일 데이터를 탐색 및 처리하고 결과를 테이블에 로드할 수 있습니다. 데이터 흐름(Gen2): Power Query Online을 사용하여 다양한 원본에서 데이터를 가져오고 변환하며 레이크하우스의 테이블에 직접 로드합니다. Notebooks: Fabric에서 Notebook을 사용하여 데이터를 수집, 변환하고 레이크하우스의 테이블 또는 파일에 로드합니다. Data Factory 파이프라인: 데이터를 복사하고 데이터 처리 작업을 오케스트레이션하여 결과를 레이크하우스의 테이블 또는 파일에 로드합니다. 바로 가기를 사용하여 데이터에 액세스 레..
01. 레이크하우스 만들기 Fabric 레이크하우스를 만드는 경로는 두 가지가 가능합니다. - Power BI ( https://app.powerbi.com/ )에서 작업영역을 선택하고 새로 만들기 - Fabric ( https://app.fabric.microsoft.com/ ) 에서 시작하기 1. Power BI 에서 시작하기 Fabric이 지원되는(또는 평가판 사용을 설정한) 작업영역을 선택합니다. Fabric 평가판 사용을 설정한 작업영역 만들기 상단의 "새로 만들기" 버튼에서 "추가 옵션"을 클릭합니다. 2. Fabric에서 시작하기 왼쪽 하단의 Fabric 아이콘을 클릭하고 Data Engineering을 클릭합니다. Fabric이 지원되는(또는 평가판 사용을 설정한) 작업영역을 선택합니다. Power BI를 통해서 들..