본문 바로가기

Microsoft Fabric/Fabric 실습 3 - Dataflow

01. Fabric Data Factory 파이프라인

데이터 파이프라인은 일반적으로 하나 이상의 원본에서 데이터를 추출하고 대상에 로드하며 종종 그 과정에서 데이터를 변환함으로써 전체 프로세스를 오케스트레이션하는 일련의 작업을 의미합니다. 

 

파이프라인은 일반적으로 운영 데이터 저장소에서 레이크하우스 또는 데이터 웨어하우스와 같은 분석 데이터 저장소로 트랜잭션 데이터를 수집하는 ETL(추출, 변환 및 로드) 프로세스를 자동화하는 데 사용됩니다.

 

Microsoft Fabric의 파이프라인

Microsoft Fabric의 파이프라인은 데이터 이동 및 처리 태스크를 수행하는 일련의 활동을 집약합니다.

- 데이터 전송 및 변환 활동을 정의하고

- 분기, 반복 및 기타 일반적인 처리 논리를 관리하고

- 이러한 활동을 오케스트레이션할 수 있습니다.

 

Fabric의 파이프라인 작업의 사용자 UI는 그래픽 파이프라인 캔버스로 코딩을 최소화하거나 코딩 없이도 복잡한 파이프라인을 빌드할 수 있습니다. 

 

파이프라인 핵심 개념 

1. 활동

활동은 파이프라인의 실행 가능한 작업입니다. 활동을 시퀀스로 연결하여 활동 흐름을 정의할 수 있습니다. 

특정 활동의 결과(성공, 실패 또는 완료)를 사용하여 시퀀스의 다음 활동으로 흐름을 전달할 수 있습니다.

  • 데이터 변환 작업 -
    원본에서 데이터를 추출하여 대상으로 로드하는 간단한 데이터 복사 작업
    전송되는 데이터에 변환을 적용하는 데이터 흐름(Gen2) 작업
    데이터 전송 작업을 캡슐화하는 작업
    Spark Notebook을 실행하는 Notebook 작업
    SQL 코드를 실행하는 저장 프로시저 작업
    기존 데이터를 삭제하기 위한 데이터 삭제 작업 등
  • 제어 흐름 작업 -
    루프, 조건부 분기를 구현
    변수 및 매개 변수 값을 관리

2. 매개변수

파이프라인을 매개 변수화하여 파이프라인이 실행될 때마다 사용할 특정 값을 제공할 수 있습니다. 

매개 변수를 사용하면 파이프라인의 재사용 가능성이 높아져 유연한 데이터 수집 및 변환 프로세스를 만들 수 있습니다.

3. 파이프라인 실행

파이프라인이 실행될 때마다 데이터 파이프라인 실행이 시작됩니다. 

Fabric 사용자 인터페이스에서 요청 시 실행을 시작하거나 특정 빈도로 시작하도록 예약할 수 있습니다.

고유 실행 ID를 사용하여 실행 세부 정보를 검토하여 성공적으로 완료되었는지 확인하고 각 실행에 사용되는 특정 설정을 조사합니다.