DP-203:Microsoft Azure 上的資料工程考試學習指南

自2024 年10 月24 日起測試的技能
受眾概況
參加DP-203考試的考生應具備以下學科專業知識:將來自各種結構化、非結構化和流式處理資料系統的資料整合、轉換並整合為適合建構分析解決方案的架構。

Azure 資料工程師要透過探索來幫助利益關係人了解數據,並透過使用不同的工具和技術來建置和維護安全且合規的資料處理管道。 你使用各種Azure 資料服務和框架來儲存和產生經過清理和增強的資料集以進行分析。 可根據業務需求使用不同的體系結構模式對此資料儲存進行設計,包括:

現代資料倉儲(MDW)

大數據

湖屋體系結構

在給定一組業務要求和限制的情況下,Azure 資料工程師還要協助確保資料管道和資料儲存操作化的高效能、高效、有組織且可靠。 你要幫助辨識和排查操作和資料品質問題。 還要設計、實現、監視和優化數據平台以滿足數據管道。

作為此考試的考生,你必須對數據處理語言有紮實的了解,包括:

SQL

Python

Scala

你需要了解平行處理和資料體系結構模式。 應熟練使用以下服務/工具來建立資料處理解決方案:

Azure 資料工廠

Azure Synapse Analytics

Azure 串流分析

Azure 活動中心

Azure Data Lake Storage

Azure Databricks

技能概覽
設計並實現資料儲存(15–20%)

開發資料處理(40–45%)

保護、監視並最佳化資料儲存和資料處理(30–35%)

設計並實現資料儲存(15–20%)
實現分區策略
為檔案實作分區策略

為分析工作負載實現分區策略

為串流處理工作負載實現分區策略

為Azure Synapse Analytics 實作分區策略

確定Azure Data Lake Storage Gen2 中何時需要分區

設計並實現資料探索層
使用利用SQL 無伺服器和Spark 叢集的計算解決方案建立和執行查詢

推薦並實作Azure Synapse Analytics 資料庫模板

將新的或更新的資料世系推送到Microsoft Purview

在Microsoft Purview 數據目錄中瀏覽和搜尋元數據

開發資料處理(40–45%)
引入和轉換數據
設計並實現增量資料加載

使用Apache Spark 轉換數據

在Azure Synapse Analytics 中使用Transact-SQL (T-SQL) 轉換數據

使用Azure Synapse Pipelines 或Azure 數據工廠引入和轉換數據

使用Azure 流分析轉換數據

清理數據

處理重複數據

使用Azure 流分析一次性交付避免重複數據

處理缺失資料

處理延遲到達的數據

拆分數據

拆分JSON

編碼和解碼數據

為轉換配置錯誤處理

標準化數據和使數據非規範化

執行資料探索性分析

開發批次解決方案
使用Azure Data Lake Storage Gen2、Azure Databricks、Azure Synapse Analytics 和Azure 資料工廠開發批次解決方案

使用PolyBase 將資料載入到SQL 池

實作Azure Synapse Link 並查詢複製的數據

建立資料管道

縮放資源

配置批次大小

為資料管道建立測試

將Jupyter 或Python 筆記本整合到資料管道中

更新插入批次數據

將資料還原到以前的狀態

配置異常處理

配置批次保留

在增量湖中讀取和寫入

開發流程處理解決方案
使用流程分析和Azure 事件中心建立流程處理解決方案

使用Spark 結構化流程處理數據

建立視窗化聚合

處理架構偏差

處理時序數據

跨分區處理數據

在一個分區內處理

在處理過程中配置檢查點和浮水印

縮放資源

為資料管道建立測試

優化用於分析或事務目的的管道

處理中斷

配置異常處理

更新插入串流數據

重播存檔的串流數據

在增量湖中讀取和寫入

管理批次和管道
觸發批次

處理失敗的批次加載

驗證批次加載

在Azure 資料工廠或Azure Synapse Pipelines 中管理資料管道

在資料工廠或Azure Synapse Pipelines 中規劃資料管道

實現管道工件的版本控制

管理管道中的Spark 作業

保護、監視並最佳化資料儲存和資料處理(30–35%)
實現資料安全性
實現資料掩碼

加密靜態和動態數據

實現行級別和列級別安全性

實作Azure 基於角色的存取控制(RBAC)

為Data Lake Storage Gen2 實作類似POSIX 的存取控制清單(ACL)

實現資料保留策略

實現安全終結點(專用和公共)

在Azure Databricks 中實作資源令牌

載入包含敏感資訊的DataFrame

將加密資料寫入表或Parquet 文件

管理敏感資訊

監視資料儲存和資料處理
實作Azure Monitor 使用的日誌記錄

配置監視服務

監視流處理

衡量資料移動的效能

跨系統監視數據並更新有關數據的統計信息

監視數據管道效能

衡量查詢效能

計劃和監視管道測試

解釋Azure Monitor 指標和日誌

實現管道警報策略

優化資料儲存和資料處理並對其進行故障排除
壓縮小文件

處理資料傾斜

處理資料溢寫

優化資源管理

使用索引器優化查詢

使用快取優化查詢

對失敗的Spark 作業進行故障排除

對失敗的管道運行進行故障排除,包括外部服務中執行的活動