因為工作原因筆者經常和企業IT人員打交道,所見所聞中對他們的日常工作應該說非常了解。信息化程度的提高使得IT部門在企業中不可或缺,但因為運維管理跟不上,IT人員成了企業中最忙碌的人,繁重的運維負擔讓他們疲於奔命,不堪重負。本文和大家分享壹下自己在IT運維管理方面的思考和經驗,希望能夠幫助到妳。
1、壹個真實的案例
作為某知名物流企業的CIO.劉總負責整個公司的IT服務管理工作。筆者經常看到他每天忙得劉總團團轉,甚至連杯水都來不及喝,但還總是被種種問題困擾,節假日還得加班。就這樣,老總經常會接到業務部門的投訴:我們的業務員明明將遠程配送業務系統問題報障給了網絡部.但他們就是推托說網絡壹切正常不是他們的問題,讓我們找系統部。而系統又說是應用的問題,讓我們找應用部,應用部說需要設備部先更換硬件才能升級應用程序。我們只好找到了設備部,設備部又說需要網絡和系統的配合才能更換配件。就這樣我們的問題轉了半天沒得到解決,耽誤了送貨時間,用戶要求賠償。
2、IT運維管理勢在必行
上面的案例應該說非常普遍,也非常值得我們思考。在業務應用日趨細分化、復雜化的今天。IT建設的迅猛發展,政府機關、企事業單位、學校等,幾乎都全部依托於IT環境進行日常辦公管理和業務管理。人員和業務流程對於網絡及IT設備的依賴度也提高到不可或缺的地步。網絡的運維與單位的持續發展緊密相關,稍有不慎就可能會令單位蒙受巨大的損失。因此,IT系統運行的穩定性和健壯性對單位來說,將顯得特別重要。特別是對於壹些大中型單位,IT設備和信息系統多而復雜,單靠人工管理它們的運行和維護情況己不可能。這樣就需要壹套切合實際的IT運維管理系統來輔助單位信息中心或信息服務部門進行自動化管理。
3、IT運維中的不良習慣
下面筆者結合自己的見聞和經歷,就我們的IT人員在運維中的不良習慣進行壹些有益的總結,以供大家杜絕。
(1).治標不治本。IT設施故障往往是突發的、隨機的、不可預測、不可控制的.也很難自動提醒和警告。運維和管理人員成天處於高度緊張狀況,節假日也提心吊膽。壹旦發生故障,往往手忙腳亂來不及仔細多方面觀察、分析原因,也無法很快準確定位。為了盡快恢復業務,只能采取重啟、清除等不可回朔操作。這種治標不治本的維護措施,不能根本解決問題,類似現象仍然可能再發生。
(2).沒有排錯記錄。我們的很多IT人員沒有排錯記錄的習慣,這樣當事後查找原因缺乏當時記錄,就算找到點痕跡也缺乏進壹步分析數據。因為故障不能再現,很難有準備地捕捉有效信息。而要在生產環境模擬故障業務幾乎不允許。開發環境又很難模擬和再現。少量片面的系統日誌很難看出問題癥結,缺乏自動實時捕捉問題關鍵點並忠實記錄工具。造成問題發生後無法回朔,問題解決無法找到頭緒。
(3).缺乏統壹的規範要求。出現同題時解決辦法因人而異,缺乏方法和工具,無法制定統壹的規範要求。在專家解決問題的經驗缺乏記錄、整理、積累和繼承。從保障穩定看,必須高價保持足夠專業運維人員。工作安排松了不利於人員發展和穩定,但安排太緊又無法保證及時響應和解決問題。
(4).應對危機太被動。對反映的問題和解決狀況缺乏統壹管理和跟蹤,全靠個人素質和責任感。無法衡量、統計員工的業績貢獻,也無法發現哪些問題最影響系統穩定.造成問題的因素是在積累還是在減弱,更缺少預警提醒機制.只能被動無序地等問題發生甚至很嚴重了才意識到。
4、IT運維管理的內容
筆者理解,IT運維管理是指單位IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT運行環境(如硬軟件環境、網絡環境等)、IT業務系統和IT運維人員進行的綜合管理。如果進行細分的話,應該包括以下幾個方面:
(1).設備管理:對網絡設備、服務器設備、操作系統運行狀況進行監控和管理;
(2).應用/服務管理:對各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監控管理。如郵件系統、DNS、Web等的監控與管理;
(3).數據/存儲/容災管理:對系統和業務數據進行統壹存儲、備份和恢復;
(4).業務管理:包含對企業自身核心業務系統運行情況的監控與管理和對於業務的管理;
(5).目錄/內容管理:該部分主要對於企業需要統壹發布或因人定制的內容管理和對公共信息的管理:
(6).資源資產管理:管理企業中各IT系統的資源資產情況;
(7).信息安全管理:企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通信與運營安全、訪問控制、業務連續性管理等;
(8).日常工作管理:該部分主要用於規範和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段。