본문 바로가기

Microsoft Fabric/Fabric 실습 2 - Spark

01. Apache Spark 사용 설정하기

Apache Spark는 대규모 데이터 처리 및 분석을 위한 오픈 소스 병렬 처리 프레임워크입니다.  Spark는 “빅 데이터” 처리 시나리오에서 널리 사용되고 있으며 Azure HDInsight, Azure Databricks, Azure Synapse Analytics, Microsoft Fabric 등 여러 플랫폼 구현에서 사용할 수 있습니다.

간단히 말해서 Spark는 여러 컴퓨터에 작업을 분산하여 대량의 데이터를 신속하게 처리하는 “분할 및 정복” 접근 방식을 사용합니다. 작업을 배포하고 결과를 정렬하는 프로세스는 Spark에서 처리합니다. SparkContext라는 클러스터 관리 개체를 사용하여 Spark 클러스터에서 처리 배포를 관리하는 드라이버 프로그램을 시작하는 일부 코드 형식으로 데이터 처리 작업을 제출합니다. 

 

Microsoft Fabric에서 각 작업 영역에는 Spark 클러스터가 할당됩니다. 관리자가 작업 영역 설정의 데이터 엔지니어링/과학 섹션에서 Spark 클러스터에 대한 설정을 해주어야 합니다. 

 

Fabric을 사용하도록 설정한 작업 영역에서 더보기 ... 버튼을 클릭하고 작업 영역 설정을 클릭합니다. 

 

풀 탭에서는 Spark에 사용할 풀을 선택할 수 있습니다. 

기본값으로 StarterPool이 선택되어 있고, 필요하다면 사용자 지정 풀을 구성해서 선택할 수 있습니다. 

 

환경 탭에서는 기본 환경 설정 토글을 켜서 Spark 환경을 작업 영역의 기본 환경으로 설정할 수 있고, 또는 새 환경을 만들어서 선택할 수도 있습니다. 

 

더보기

참고사항 

Spark 컴퓨팅 구성

Microsoft Fabric Spark 컴퓨팅 은 Spark 및 요구 사항에 맞는 환경에서 실행되는 탁월한 속도와 효율성을 제공합니다. 사용자 환경에서는 작업 영역 관리자 및 용량 관리자가 만든 다양한 풀 중에서 선택할 수 있습니다. Spark 세션에서 적용되도록 구성을 추가로 조정하고 Spark 속성을 관리할 수 있습니다. 패브릭 환경의 Spark 컴퓨팅 구성 설정

 

라이브러리 관리

각 Spark 런타임에서 제공하는 기본 제공 라이브러리를 제외하고 패브릭 환경을 사용하면 공용 원본에서 라이브러리를 설치하거나 사용자 또는 조직에서 빌드한 사용자 지정 라이브러리를 업로드할 수 있습니다. 라이브러리를 성공적으로 설치하면 Spark 세션에서 사용할 수 있습니다. 패브릭 환경의 라이브러리 관리

높은 동시성과 자동 로그의 토글도 켜 둡니다.