본문 바로가기

전체

(87)
06. Fabric의 Delta Lake 1. Delta Lake 이해 Delta Lake는 Spark 기반 데이터 레이크 처리에 관계형 데이터베이스 의미 체계를 추가하는 오픈 소스 스토리지 계층입니다. Microsoft Fabric 레이크하우스의 테이블은 Delta 테이블로, 레이크하우스 사용자 인터페이스의 테이블에 있는 삼각형 Delta(▴) 아이콘으로 표시됩니다. Delta 테이블은 Delta 형식으로 저장된 데이터 파일에 대한 스키마 추상화입니다. 각 테이블에 대해 레이크하우스는 Parquet 데이터 파일이 포함된 폴더와 트랜잭션 세부 정보가 JSON 형식으로 기록되는 _delta_Log 폴더를 저장합니다. Delta 테이블을 사용하면 쿼리 및 데이터 수정을 지원하는 관계형 테이블. Apache Spark를 사용하면 CRUD(만들기, 읽..
06. Apache Spark로 데이터 분석 연습하기 이전 포스팅을 참고하여 sales, products, customers 데이터를 가져옵니다. 2024.01.23 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 05. Fabric 레이크하우스에 데이터 수집하기 05. Fabric 레이크하우스에 데이터 수집하기 기본 데이터 수집 방법 Fabric 레이크하우스에 데이터를 로드하는 여러 가지 방법이 있습니다. 업로드: 로컬 파일 또는 폴더를 레이크하우스에 업로드합니다. 그런 다음, 파일 데이터를 탐색 및 d365-powerbi.tistory.com 데이터 로드는 코드를 직접 작성하지 않아도 간단히 클릭해서 자동작성할 수 있습니다. data 폴더 아래 로드하고자 하는 파일 끝의 더보기 ... 를 클릭하여 데이터 로드를 클릭하고 Spark를..
05. Spark Notebook에서 데이터 시각화 Microsoft Fabric의 Notebook은 사용자 인터페이스에서 몇 가지 기본 차트 기능을 제공하며, 해당 기능이 필요한 기능을 제공하지 않는 경우 많은 Python 그래픽 라이브러리 중 하나를 사용하여 Notebook에서 데이터 시각화를 만들고 표시할 수 있습니다. 기본 제공 Notebook 차트 사용 Spark Notebook에서 데이터 프레임을 표시하거나 SQL 쿼리를 실행하면 결과가 코드 셀 아래에 표시됩니다. 코드를 실행한 결과에서 Chart 탭을 클릭하고 View options 아이콘을 클릭하면 다음과 같이 차트를 커스터마이징할 수도 있습니다. 차트 종류는 다음 10가지가 가능합니다. Bar chart Line chart Column chart Area chart Pie chart Sc..
04. Spark SQL을 사용하여 데이터 작업 Dataframe API는 데이터 분석가가 SQL 식을 사용하여 데이터를 쿼리하고 조작할 수 있도록 하는 Spark SQL 라이브러리의 일부입니다. Spark 카탈로그에서 데이터베이스 오브젝트 만들기 Spark 카탈로그는? 더보기 Apache Spark에서 "카탈로그"는 메타데이터 관리를 위한 중요한 구성 요소입니다. 이 카탈로그는 Spark SQL을 사용하여 데이터베이스, 테이블, 뷰, 함수 및 기타 메타데이터를 관리하는 데 사용됩니다. Spark 카탈로그의 주요 기능은 다음과 같습니다. 데이터베이스 관리: Spark 카탈로그를 사용하여 데이터베이스를 생성, 삭제, 변경 및 조회할 수 있습니다. 데이터베이스는 관련 테이블과 뷰의 논리적 컨테이너 역할을 합니다. 테이블과 뷰 관리: 카탈로그를 통해 테이블..
DAX기초 FILTER, ALL, ALLEXCEPT FILTER FILTER( 테이블, 필터식) FILTER는 조건을 만족하는 모든 행을 반환하는 테이블함수이면서 반복함수이다. FILTER 함수는 FILTER 함수 안에 FILTER함수를 중첩해서 사용할 수 있는데, AND로 결합한 것과 결과가 같다. 다만, DAX는 필터를 평가할 때 안쪽의 FILTER부터 평가하기 때문에 안쪽의 FILTER에 경우가 적은 수의 FILTER를 넣고 바깥쪽의 FILTER에 결과가 많은 FILTER를 넣어야 필터가 반복하는 횟수를 줄일 수 있다. ALL ALL( 포함할 테이블 또는 컬럼명, 컬럼명, 컬럼명,...) ALL함수는 REMOVEFILTER와 같이 필터 컨텍스트에 적용된 필터를 제거한다. 매개변수에 따라 테이블의 모든 행을 반환하거나 지정한 컬럼의 모든 값을 반환한다..
robust, scarce, affordable, influx robust 튼튼한, 원기왕성한 strong and healthy She was almost 90, but still very robust. He seems to be in robust (good) health. scarce 부족한, 드문 if something is scarce, there is not enough of it and it is only available in small quantities Details of the accident are scarce. Food was becoming scarce. Affordable 감당할 수 있는 cheap enough that people can afford to pay it or buy it We offer quality products at af..
03. Spark 데이터 프레임에서 데이터 사용해 보기 Spark에서 정형 데이터를 사용하기 위해 가장 일반적으로 사용되는 데이터 구조는 Spark SQL 라이브러리의 일부로 제공되는 데이터 프레임입니다. Spark의 데이터 프레임은 유비쿼터스 Pandas Python 라이브러리의 데이터 프레임과 비슷하지만 Spark의 분산 처리 환경에서 작동하도록 최적화되었습니다. 1. 데이터 프레임에 데이터 로드 먼저 레이크하우스에 첨부된 products.csv파일을 업로드하여 새로운 데이터를 가져옵니다. 더보기 레이크하우스에 데이터 가져오는 방법은 아래 포스팅을 참고합니다. 2024.01.23 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 05. Fabric 레이크하우스에 데이터 수집하기 1-1. 데이터 조회하기 Spark Notebook에서 다..
02. Spark 코드 실행하기 Microsoft Fabric에서 Spark 코드를 편집하고 실행하려면 Notebook을 사용하거나 또는 Spark 작업을 정의할 수 있습니다. 1. Notebooks Spark를 사용하여 대화형으로 데이터를 탐색하고 분석하려면 Notebook을 사용합니다. 레이크하우스 탐색기 창에서 "sales" 테이블 끝의 더보기 ... 버튼을 클릭하고 "Notebook"에서 열기를 선택하여 "새 Notebook"을 클릭합니다. Notebook 환경에서 데이터 분석 수행에 필요한 코드 작업을 하고 실행할 수 있습니다. 상단에서 사용할 언어를 변경할 수 있습니다. 2. Spark 작업 정의 Spark를 사용하여 자동화된 프로세스의 일부로 데이터를 수집하고 변환하려는 경우 요청 시 또는 일정에 따라 스크립트를 실행하도록..