網絡排故不僅考驗技術,更是體力和耐心的煎熬。如果不能很快地排除故障,領導的懷疑,同事的輕視更難以忍受。正是基於這樣的考慮,我把自己在這方面的積累的一些技巧和經驗寫成文和大家分享。
1、區分硬故障和軟故障
網絡故障分硬故障和軟故障,有時是軟硬件相結合的故障,網絡工程師要能夠根據故障表現敏銳準確地判斷是哪類故障。所謂硬故障就是由硬件引起的網絡故障,比如接觸不良,插口、元件損壞等。硬故障具有立竿見影的效果,如果發生硬故障其所在的這段網絡馬上崩潰。我特別提醒大家,所謂軟故障並不僅僅是軟件故障。這種故障時隱時現,可以由軟件故障引起,也可以是硬件故障引起,是難度比較高的一類故障。這除了需要網絡維護和管理人員具備一定的軟硬件故障診斷知識外,對診斷經驗的積累也有一定的要求。
通常情況下,借用適當的網絡檢測工具可以使我們的工作事半功倍。如何選擇合適的檢測工具對故障監測點進行測試是很有講究的。許多故障需要進行多點測試才能定位,這時非常需要的是便攜式的測試工具。網絡故障的診斷發展方向是測試工具的網絡化和故障診斷的網絡化。一般的網絡設備和網上設備只支持有限的網管功能,所以監測網絡性能和快速定位網絡故障需要一些必要的固定測試工具(如固定探頭、網管系統等)和移動測試工具(如網絡測試儀、流量分析儀等)。對重要的網絡設備要準備適當的備用設備,至少要留足備用通道。網絡關鍵設備不一定要選用最昂貴和功能最齊全的設備,但一定要選用應用比較成熟,可靠性高、用戶數量大的設備,這樣技術支持的難度就會降低。如果將關鍵網絡設備的維護工作交給集成商或廠商來做,那用戶就得準備將網絡的命運完全交給集成商或廠商來控制,而這是非常危險的。因此對人員進行適當的培訓並配備合適的、易懂易用的工具是做好網絡維護工作的必要條件之一。
2、掌握故障隔離技巧
網絡故障不可避免,如何才能快速定位並排除故障呢?以我的經驗,依據經驗並藉用第三方工具分析就可以逐漸縮小範圍,直至定位到故障源。在這個過程中,需要藉助網絡隔離技術。這樣不僅可以簡化網絡快速定位故障源,同時也可以減少網絡故障給整個網絡帶來的損失。
其中,用交換機來隔離網段和網絡故障有較好的作用。主服務器、網管機等重要網絡設備應以獨享交換機端口為佳,不宜再用共享式集線器連接上其它設備,這樣可以迅速孤立出故障設備,減少因網絡停運造成的損失。如果恰好遇到交換器故障,那麼根據網絡拓撲結構圖就可以迅速定位交換機的問題,提高維護工作的時效性。另外,Mac地址是文檔備案的最重要內容之一,除了用於排除網絡設備故障有極大方便外,對於迅速查找我們稱之為“惡意用戶”的非合法上網成員也有很大幫助。
3、網絡診斷中的社會工程學
社會工程學通俗地說就是使人們順從你的意願、滿足你的慾望的一門藝術與學問,在黑客技術中比較常用。其中不少網絡故障是有網絡內部的人員有意或者無意造成的,一個對公司不滿的員工就可以在一定程度上損壞企業的網絡,至少會讓網絡工程師忙得團團轉。有的時候,進行網絡故障的診斷,了解這方面的信息是非常有用的,很多時候會讓我們的工作柳暗花明。
說一個簡單的例子,某公司的網管辭職後,不到一天就出現了網絡故障。具體症狀為:公司外網基本上兩小時自動掉一次線,然後過一分鐘又自動連接上。這期間雖然耽誤時間只有一分鐘,但由於公司很多廣告設計都是多人在線協作完成。另外,公司的視頻點播系統對網絡的連通性要求很高。因此,這一分鐘的掉線對公司的影響還是比較大的。在網絡故障的排查過程中,排除了硬件連接和病毒等因素,就是找不到原因,網絡排故陷入困境。最後維護人員了解到,前網管因不滿公司待遇憤然辭職的事實後,事情才柳暗花明,原來是前管理員離職前為洩憤修改了路由器的撥號設置才造成瞭如此蹊蹺的網絡故障。由上面的這個案例可以看到,社會工程學在網絡排故中的作用。這個例子非常簡單,大家在實戰中可能遇到更複雜的情況,不管怎樣掌握一定的社會工程學知識是必要的,它可是“技術之外的技術”。