自2024 年10 月24 日起測試的技能
受眾概況
參加DP-203考試的考生應具備以下學科專業知識:將來自各種結構化、非結構化和流式處理資料系統的資料整合、轉換並整合為適合建構分析解決方案的架構。
Azure 資料工程師要透過探索來幫助利益關係人了解數據,並透過使用不同的工具和技術來建置和維護安全且合規的資料處理管道。 你使用各種Azure 資料服務和框架來儲存和產生經過清理和增強的資料集以進行分析。 可根據業務需求使用不同的體系結構模式對此資料儲存進行設計,包括:
現代資料倉儲(MDW)
大數據
湖屋體系結構
在給定一組業務要求和限制的情況下,Azure 資料工程師還要協助確保資料管道和資料儲存操作化的高效能、高效、有組織且可靠。 你要幫助辨識和排查操作和資料品質問題。 還要設計、實現、監視和優化數據平台以滿足數據管道。
作為此考試的考生,你必須對數據處理語言有紮實的了解,包括:
SQL
Python
Scala
你需要了解平行處理和資料體系結構模式。 應熟練使用以下服務/工具來建立資料處理解決方案:
Azure 資料工廠
Azure Synapse Analytics
Azure 串流分析
Azure 活動中心
Azure Data Lake Storage
Azure Databricks
技能概覽
設計並實現資料儲存(15–20%)
開發資料處理(40–45%)
保護、監視並最佳化資料儲存和資料處理(30–35%)
設計並實現資料儲存(15–20%)
實現分區策略
為檔案實作分區策略
為分析工作負載實現分區策略
為串流處理工作負載實現分區策略
為Azure Synapse Analytics 實作分區策略
確定Azure Data Lake Storage Gen2 中何時需要分區
設計並實現資料探索層
使用利用SQL 無伺服器和Spark 叢集的計算解決方案建立和執行查詢
推薦並實作Azure Synapse Analytics 資料庫模板
將新的或更新的資料世系推送到Microsoft Purview
在Microsoft Purview 數據目錄中瀏覽和搜尋元數據
開發資料處理(40–45%)
引入和轉換數據
設計並實現增量資料加載
使用Apache Spark 轉換數據
在Azure Synapse Analytics 中使用Transact-SQL (T-SQL) 轉換數據
使用Azure Synapse Pipelines 或Azure 數據工廠引入和轉換數據
使用Azure 流分析轉換數據
清理數據
處理重複數據
使用Azure 流分析一次性交付避免重複數據
處理缺失資料
處理延遲到達的數據
拆分數據
拆分JSON
編碼和解碼數據
為轉換配置錯誤處理
標準化數據和使數據非規範化
執行資料探索性分析
開發批次解決方案
使用Azure Data Lake Storage Gen2、Azure Databricks、Azure Synapse Analytics 和Azure 資料工廠開發批次解決方案
使用PolyBase 將資料載入到SQL 池
實作Azure Synapse Link 並查詢複製的數據
建立資料管道
縮放資源
配置批次大小
為資料管道建立測試
將Jupyter 或Python 筆記本整合到資料管道中
更新插入批次數據
將資料還原到以前的狀態
配置異常處理
配置批次保留
在增量湖中讀取和寫入
開發流程處理解決方案
使用流程分析和Azure 事件中心建立流程處理解決方案
使用Spark 結構化流程處理數據
建立視窗化聚合
處理架構偏差
處理時序數據
跨分區處理數據
在一個分區內處理
在處理過程中配置檢查點和浮水印
縮放資源
為資料管道建立測試
優化用於分析或事務目的的管道
處理中斷
配置異常處理
更新插入串流數據
重播存檔的串流數據
在增量湖中讀取和寫入
管理批次和管道
觸發批次
處理失敗的批次加載
驗證批次加載
在Azure 資料工廠或Azure Synapse Pipelines 中管理資料管道
在資料工廠或Azure Synapse Pipelines 中規劃資料管道
實現管道工件的版本控制
管理管道中的Spark 作業
保護、監視並最佳化資料儲存和資料處理(30–35%)
實現資料安全性
實現資料掩碼
加密靜態和動態數據
實現行級別和列級別安全性
實作Azure 基於角色的存取控制(RBAC)
為Data Lake Storage Gen2 實作類似POSIX 的存取控制清單(ACL)
實現資料保留策略
實現安全終結點(專用和公共)
在Azure Databricks 中實作資源令牌
載入包含敏感資訊的DataFrame
將加密資料寫入表或Parquet 文件
管理敏感資訊
監視資料儲存和資料處理
實作Azure Monitor 使用的日誌記錄
配置監視服務
監視流處理
衡量資料移動的效能
跨系統監視數據並更新有關數據的統計信息
監視數據管道效能
衡量查詢效能
計劃和監視管道測試
解釋Azure Monitor 指標和日誌
實現管道警報策略
優化資料儲存和資料處理並對其進行故障排除
壓縮小文件
處理資料傾斜
處理資料溢寫
優化資源管理
使用索引器優化查詢
使用快取優化查詢
對失敗的Spark 作業進行故障排除
對失敗的管道運行進行故障排除,包括外部服務中執行的活動