Fabric을 사용하도록 설정한 작업 영역에 들어갑니다.
Fabric 작업영역 설정은 기존 포스팅을 참고하시면 됩니다.
2024.01.22 - [Microsoft Fabric/Fabric 실습 시리즈 1] - 02. Microsoft Fabric 평가판 사용하기
상단의 새로 만들기를 클릭하여 데이터 파이프라인을 선택합니다.
새 파이프라인의 이름을 지정하고 만들기를 클릭합니다.
파이프라인 화면 중앙에 데이터 복사를 클릭하고 데이터 복사 도우미를 사용하여 데이터 복사 작업을 구성할 수 있습니다.
또는 "활동" 탭에서 "데이터 복사" 버튼을 클릭하여 "캔버스에 추가"를 클릭하면 캔버스에서 해당 작업을 선택하고 아래 창에서 해당 설정을 편집할 수 있습니다.
다음과 같은 다양한 데이터 원본 연결이 지원됩니다.
변환을 적용하지 않고 지원되는 원본과 대상 간에 직접 데이터를 복사해야 하는 경우 또는 원시 데이터를 가져오고 이후 파이프라인 작업에서 변환을 적용하려는 경우, 데이터 복사 작업을 사용합니다.
데이터를 수집할 때 변환을 적용하거나 여러 원본의 데이터를 병합해야 하는 경우 Data Flow 작업을 사용하여 데이터 흐름(Gen2)을 실행하는 것이 좋습니다. Power Query 사용자 인터페이스를 사용하여 여러 변환 단계를 포함하는 데이터 흐름(Gen2)을 정의하고 파이프라인에 포함할 수 있습니다.
Microsoft Fabric에서 데이터 흐름 Gen2를 사용하여 데이터 수집하는 과정은 다음 실습 시리즈에서 다뤄 보겠습니다.
포스팅에서는 실습 시리즈 1에서 사용한 레이크하우스의 데이터를 가져와 보도록 합니다.
기존 레이크 하우스를 선택하고 목록에서 데이터를 수집할 레이크하우스를 선택합니다.
시리즈 1에서 사용한 레이크하우스에는 Table 데이터와 폴더의 파일데이터 모두 존재하기 때문에 각각에서 추가해 봅니다.
(테이블의 데이터와 파일의 데이터를 한번에 복사할 수는 없기 때문에 데이터 복사 작업을 2개 생성하였습니다.)
데이터를 저장할 대상은 Azure Blob Storage를 선택합니다.
데이터 저장 대상도 다양하게 지원합니다.
연결할 Azure Blob Storage를 새로 만들어 줍니다.
- 계정 이름 또는 URL : 스토리지의 계정명 입력
- 연결 자격 증명
연결 : 새 연결 만들기
연결 이름 : 자동으로 만들어집니다.
인증 종류 : 사용할 인증 방식을 선택합니다. 포스팅에서는 계정 키로 선택하였습니다.
계정 키 : Blob Storage의 계정 키를 Azure 에서 복사하여 입력합니다.
연결할 Blob Storage의 경로를 선택하고 파일 이름을 입력합니다.
(포스팅 하는 시점에는 복사 동작에 대한 공식 문서가 없어서 어떤 기능인지 확인하지 못해서 Flatten hierarchy로 선택하였습니다.)
마지막으로 데이터 저장 형태를 선택하고 다음을 클릭합니다.
검토 + 저장 단계에서는 요약 원본과 대상 저장소의 정보를 확인하고 "저장 + 실행"을 클릭합니다.
Data Factory 캔버스 화면에 도우미로 실행한 데이터 복사 활동이 추가됩니다.
도우미에서 설정한 내용은 캔버스 하위 설정 창에서 변경할 수 있습니다.
선택한 연결 대상이 매핑을 지원하는 경우 매핑 탭으로 이동하여 매핑을 구성할 수 있습니다.
기져온 컬럼의 Type을 선택합니다.
또는 상단의 "새 매핑"버튼을 클릭하여 추가할 수도 있습니다.
설정의 세부정보는 다음의 설명을 참조하여 구성합니다.
지능형 처리량 최적화 | 처리량을 최적화하도록 지정합니다. 다음 중에서 선택할 수 있습니다. • 자동 • 표준 • 균형 잡힌 • 최대값 자동을 선택하면 원본-대상 쌍 및 데이터 패턴에 따라 최적의 설정이 동적으로 적용됩니다. 처리량을 사용자 지정할 수도 있으며 사용자 지정 값은 2-256일 수 있지만 값이 높을수록 더 많은 이익을 얻을 수 있습니다. |
복사 병렬 처리 수준 | 데이터 로드에서 사용할 병렬 처리 수준을 지정합니다. |
내결함성 | 이 옵션을 선택하면 복사 프로세스 도중에 발생한 일부 오류를 무시할 수 있습니다. 예를 들어 원본과 대상 저장소 간의 호환되지 않는 행, 데이터 이동 중에 삭제되는 파일 등이 있습니다. |
로깅 사용 | 이 옵션을 선택하면 복사한 파일, 건너뛴 파일 및 행을 기록할 수 있습니다. |
스테이징 사용 | 중간 준비 저장소를 통해 데이터를 복사할지 여부를 지정합니다. 유익한 시나리오에 대해서만 스테이징을 사용하도록 설정합니다. |
스테이징 계정 연결 | 준비 사용을 선택할 때 Azure Storage 데이터 원본의 연결을 중간 준비 저장소로 지정합니다. 준비 연결이 없는 경우 + 새로 만들기를 선택합니다. |
저장 후 실행탭에서 실행을 클릭하면 데이터 복사가 진행됩니다.
'Microsoft Fabric > Fabric 실습 3 - Dataflow' 카테고리의 다른 글
05. 파이프라인에 Dataflow 추가 (0) | 2024.02.28 |
---|---|
04. Dataflow Gen2 데이터 수집 (0) | 2024.02.28 |
03. Dataflows Gen2 살펴보기 (0) | 2024.02.26 |
01. Fabric Data Factory 파이프라인 (0) | 2024.02.07 |