본문 바로가기

Microsoft Data & AI/Fabric 실습 2 - Spark

(6)
06. Apache Spark로 데이터 분석 연습하기 이전 포스팅을 참고하여 sales, products, customers 데이터를 가져옵니다. 2024.01.23 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 05. Fabric 레이크하우스에 데이터 수집하기 05. Fabric 레이크하우스에 데이터 수집하기 기본 데이터 수집 방법 Fabric 레이크하우스에 데이터를 로드하는 여러 가지 방법이 있습니다. 업로드: 로컬 파일 또는 폴더를 레이크하우스에 업로드합니다. 그런 다음, 파일 데이터를 탐색 및 d365-powerbi.tistory.com 데이터 로드는 코드를 직접 작성하지 않아도 간단히 클릭해서 자동작성할 수 있습니다. data 폴더 아래 로드하고자 하는 파일 끝의 더보기 ... 를 클릭하여 데이터 로드를 클릭하고 Spark를..
05. Spark Notebook에서 데이터 시각화 Microsoft Fabric의 Notebook은 사용자 인터페이스에서 몇 가지 기본 차트 기능을 제공하며, 해당 기능이 필요한 기능을 제공하지 않는 경우 많은 Python 그래픽 라이브러리 중 하나를 사용하여 Notebook에서 데이터 시각화를 만들고 표시할 수 있습니다. 기본 제공 Notebook 차트 사용 Spark Notebook에서 데이터 프레임을 표시하거나 SQL 쿼리를 실행하면 결과가 코드 셀 아래에 표시됩니다. 코드를 실행한 결과에서 Chart 탭을 클릭하고 View options 아이콘을 클릭하면 다음과 같이 차트를 커스터마이징할 수도 있습니다. 차트 종류는 다음 10가지가 가능합니다. Bar chart Line chart Column chart Area chart Pie chart Sc..
04. Spark SQL을 사용하여 데이터 작업 Dataframe API는 데이터 분석가가 SQL 식을 사용하여 데이터를 쿼리하고 조작할 수 있도록 하는 Spark SQL 라이브러리의 일부입니다. Spark 카탈로그에서 데이터베이스 오브젝트 만들기 Spark 카탈로그는? 더보기 Apache Spark에서 "카탈로그"는 메타데이터 관리를 위한 중요한 구성 요소입니다. 이 카탈로그는 Spark SQL을 사용하여 데이터베이스, 테이블, 뷰, 함수 및 기타 메타데이터를 관리하는 데 사용됩니다. Spark 카탈로그의 주요 기능은 다음과 같습니다. 데이터베이스 관리: Spark 카탈로그를 사용하여 데이터베이스를 생성, 삭제, 변경 및 조회할 수 있습니다. 데이터베이스는 관련 테이블과 뷰의 논리적 컨테이너 역할을 합니다. 테이블과 뷰 관리: 카탈로그를 통해 테이블..
03. Spark 데이터 프레임에서 데이터 사용해 보기 Spark에서 정형 데이터를 사용하기 위해 가장 일반적으로 사용되는 데이터 구조는 Spark SQL 라이브러리의 일부로 제공되는 데이터 프레임입니다. Spark의 데이터 프레임은 유비쿼터스 Pandas Python 라이브러리의 데이터 프레임과 비슷하지만 Spark의 분산 처리 환경에서 작동하도록 최적화되었습니다. 1. 데이터 프레임에 데이터 로드 먼저 레이크하우스에 첨부된 products.csv파일을 업로드하여 새로운 데이터를 가져옵니다. 더보기 레이크하우스에 데이터 가져오는 방법은 아래 포스팅을 참고합니다. 2024.01.23 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 05. Fabric 레이크하우스에 데이터 수집하기 1-1. 데이터 조회하기 Spark Notebook에서 다..
02. Spark 코드 실행하기 Microsoft Fabric에서 Spark 코드를 편집하고 실행하려면 Notebook을 사용하거나 또는 Spark 작업을 정의할 수 있습니다. 1. Notebooks Spark를 사용하여 대화형으로 데이터를 탐색하고 분석하려면 Notebook을 사용합니다. 레이크하우스 탐색기 창에서 "sales" 테이블 끝의 더보기 ... 버튼을 클릭하고 "Notebook"에서 열기를 선택하여 "새 Notebook"을 클릭합니다. Notebook 환경에서 데이터 분석 수행에 필요한 코드 작업을 하고 실행할 수 있습니다. 상단에서 사용할 언어를 변경할 수 있습니다. 2. Spark 작업 정의 Spark를 사용하여 자동화된 프로세스의 일부로 데이터를 수집하고 변환하려는 경우 요청 시 또는 일정에 따라 스크립트를 실행하도록..
01. Apache Spark 사용 설정하기 Apache Spark는 대규모 데이터 처리 및 분석을 위한 오픈 소스 병렬 처리 프레임워크입니다. Spark는 “빅 데이터” 처리 시나리오에서 널리 사용되고 있으며 Azure HDInsight, Azure Databricks, Azure Synapse Analytics, Microsoft Fabric 등 여러 플랫폼 구현에서 사용할 수 있습니다. 간단히 말해서 Spark는 여러 컴퓨터에 작업을 분산하여 대량의 데이터를 신속하게 처리하는 “분할 및 정복” 접근 방식을 사용합니다. 작업을 배포하고 결과를 정렬하는 프로세스는 Spark에서 처리합니다. SparkContext라는 클러스터 관리 개체를 사용하여 Spark 클러스터에서 처리 배포를 관리하는 드라이버 프로그램을 시작하는 일부 코드 형식으로 데이터 ..