技術丨雲計算數據中心智能運維全棧觀察的基礎——帶內遙測技術淺析

魏航 思科聯天下 昨天

隨著數字化轉型企業對雲計算基礎架構依賴程度的提高,融合了大數據和人工智能最新發展的智能運維(AIOps)逐漸成為提高基礎架構服務質量的關鍵[1]。 Gartner 在 AIOps 的研究報告[2]中指出,AIOps 平台應由觀察(Observe)、處理(Engage)和行動(Act)三個部分結合大數據和機器學習組成一個閉環結構,而觀察是觸發整個閉環反饋的基礎和關鍵,沒有高質量的全棧觀察,就缺乏人工智能所需的大數據源,因而也無法形成智能化的處理和相應的主動運維行為。但在性能飛速提升的數據中心,數據平面觀察是一直以來的難點。為網絡設備製定硬件可編程語言標準的開源組織 P4(p4.org)對帶內網絡的遙測(In-band Network Telemetry,INT)定義了三種類型的技術思路 —— eMbed Data(MD),eMbed instruct(X)ions(MX)和 INT eXport Data(XD)—— 基本涵蓋了主流的 INT 技術實現方式[3]。

從當前業內云數據中心交換設備對這幾種思路的商業化實現上看,INT MD 功能全面但對資源和處理性能要求高,商用化多實現在 9.6T-25.6Tbps 級別的單芯片系統上;INT MX 相對輕量化,但功能有限,對系統功能整合度要求高,多實現在廠商特定功能集內;IN TXD 做到了功能和開銷的相對平衡,成本和實用性更有優勢,但對芯片設計的門檻要求更高。採用不同權衡策略的商業化產品功能差異較大,需要不同企業在 AIOps 設計時根據需求詳細考查。從未來發展上看,通用企業數據中心會偏重將帶內遙測通過 XD 方式實現,同時用 MX 做進一步功能補充;而運營商和互聯網企業在升級到 100/200G 接入或普遍引入智能網卡之後,會重點考慮 MD 功能。當然工程上的實現並不絕對,不同解決方案會走向某種模式為主、其他模式補充的混合形態,以追求性能、功能與代價的最優平衡[4]。