데이터 파이프라인 통합
데이터 파이프라인은 Data Factory 및 데이터 엔지니어링 워크로드에서 쉽게 만들 수 있습니다.
파이프라인은 데이터 엔지니어링의 일반적인 개념이며 오케스트레이션할 다양한 활동을 제공합니다.
- 데이터 복사
- Dataflow 통합
- Notebook 추가
- 메타데이터 가져오기
- 스크립트 또는 저장 프로시저 실행
Dataflow Gen2 사용해 보기
Dataflow Gen2 다양한 데이터 원본에 연결하고 Power Query Online에서 변환을 수행합니다.
그런 다음 데이터 파이프라인에서 레이크하우스 또는 기타 분석 저장소로 데이터를 수집하거나
Power BI 보고서에 대한 데이터 세트를 정의하는 데 사용할 수 있습니다.
1. 레이크하우스 만들기
Fabric을 사용할 수 있는 작업영역에서 새 레이크하우스를 만듭니다.
작업영역 선택하기 > 새로 만들기 클릭 > 레이크하우스 선택하기 > 레이크하우스 이름 입력 > 만들기 클릭
잠시 후 비어있는 레이크하우스가 만들어 집니다.
2. 데이터를 수집하는 Dataflow Gen2 만들기
데이터를 수집하는 방법은 ETL(추출, 변환 및 로드) 프로세스를 캡슐화하는 데이터 흐름을 정의하는 것입니다.
상단의 "데이터 가져오기"를 클릭하고 "새 데이터 흐름 Gen2"를 선택합니다.
잠시 후 Power Query 편집기 화면이 표시됩니다.
"텍스트/CSV 파일에서 가져오기"를 선택합니다.
"데이터 원본에 연결"하는 마법사에 항목을 다음과 같이 입력합니다.
- 연결 설정 : 파일에 연결
- 파일 경로 또는 URL: https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/orders.csv
- 연결: 새 연결 만들기
- 데이터 게이트웨이: (없음)
- 인증 종류: 익명
"다음"버튼을 클릭하면 데이터 미리보기가 표시됩니다.
데이터 미리 보기 화면에서 "만들기"를 클릭합니다.
이제 약간의 데이터 편집을 해 봅니다.
상단의 리본 도구 모음에서 "열 추가"탭을 선택하고 "사용자 지정 열"을 클릭하여 새 열을 추가합니다.
새 열 이름은 "MonthNo"으로 입력하고 데이터 형식은 "정수"로 선택합니다.
그리고 아래와 같이 Date.Month([OrderDate]) 수식을 입력하고 "확인"을 클릭합니다.
추가된 열 MonthNo와 사용자 지정 열을 추가하는 단계를 확인해 봅니다.
MonthNo 의 데이터 타입이 정수로 되어 있는지 확인하고 다른 타입인 경우 정수로 바꿔주시면 됩니다.
(1) 적용된 단계는 각 전환 과정을 담고 있으며 각 단계를 클릭하면 변환 작업의 쿼리를 확인할 수 있습니다.
(2) 하단의 다이어그램 아이콘을 클릭하면 적용된 단계의 Visual 다이어그램을 확인할 수 있습니다.
3. Dataflow에 대한 데이터 Destination(대상) 추가
쿼리 편집창에서 수집하고 변환 처리한 데이터를 저장할 데이터 대상을 추가하여 저장하는 단계입니다.
화면 오른쪽 하단의 데이터 대상 선택옵션 안에 설정 아이콘을 클릭합니다.
데이터 대상에 연결 마법사에서 "연결 자격 증명"에 데이터 흐름이 레이크하우스에 액세스하는 데 사용할 ID를 지정합니다.
이미 사용자가 인증되어 있을 수도 있고, 다른 사용자로 전환할 수 있습니다. 사용할 계정으로 로그인하고 다음을 클릭합니다.
새 테이블과 기존 테이블에서 선택할 수 있습니다.
이 실습에서는 이미 만들어진 Lakehouse를 선택하고 테이블 이름에 orders를 입력하여 새 테이블을 만들게 합니다.
대상 선택 화면에서 자동 설정 사용 토글을 해제하고 저장 설정을 "추가(Append)"로 선택하고 "설정 저장"버튼을 클릭합니다.
다이어그램을 보기를 해보면 Lakehouse 대상은 Power Query 편집기의 쿼리에서 아이콘으로 표시됩니다.
이제 "게시"를 클릭하여 데이터 흐름을 게시합니다.
(게시 옆의 펼치기 버튼을 클릭하여 지금 게시 또는 나중에 게시를 선택할 수 있습니다.)
'Microsoft Fabric > Fabric 실습 3 - Dataflow' 카테고리의 다른 글
05. 파이프라인에 Dataflow 추가 (0) | 2024.02.28 |
---|---|
03. Dataflows Gen2 살펴보기 (0) | 2024.02.26 |
02. Data Factory 데이터 복사 작업 (0) | 2024.02.07 |
01. Fabric Data Factory 파이프라인 (0) | 2024.02.07 |