近年來隨著人社行業信息化技術的迅速發展,特別是在社會保障卡發行后,各人社的五險系統、異地就醫、內外公共服務、互聯網業務各項軟硬件建設高速增長,對安全性、實時性、系統維護要求更高。
人力社保信息系統越來越多、越來越龐大,也越來越復雜,同時業務對信息系統支撐力度要求也越來越高,為確保信息系統安全、平穩的運行,做到對系統運行故障的及時發現,盡快處理。因此建設綜合運維管理系統是很有必要的。
然而這一切,傳統的IT運維服務軟件無法滿足這樣的要求,需要有一套對人社行業知根知底的應用系統運維監控平臺,來迎接新的挑戰和要求,使人社用戶的運維工作越來越輕松,并且在運維服務的過程中,能夠實現量化管理,不斷提升綜合的運維管理能力。
應用運維監控平臺總體目標是確保數據安全和系統平穩運行。具體有三方面:一是實現對硬件設備、網絡的實時監控,達到對人社信息中心的網絡、設備、應用系統等資源的可視、可控、可管理,從而加強系統的監控與維護能力;二是提高系統維護工作的質量和綜合運維管理水平;三是實現業務實時監控,為業務系統提供有利保障,進一步提升信息安全防護能力。具體目標如下:
(一)預防為主。實現信息中心運維管理的主動化和體系化,通過實時的監測和分析發現系統潛在的問題和風險,實現主動式運維管理,最大程度減少事故的發生,實現運維管理的流程化。
(二)快速反應。確保信息中心設備和應用系統正常、安全、高效運行,方便信息中心隨時了解各個系統的運行情況,在系統發生故障時能夠迅速反應,及時獲取相關的告警,快速定位異常位置和報告故障發生可能的原因。
(三)機房環境實時監控。實時監控信息中心機房環境運行情況。
應用運維監控平臺從功能結構上為三層結構,具有良好的可擴展能力,可以自定義增加多種監控設備,整個系統體系結構展現如下圖:
監控資源層
監控資源層提供網絡監控、主機系統監控、數據庫監控、網絡監控、應用、機房環境等監控。
數據處理層
數據處理層利用全面集中監控,統一管理的理念實現各項監控工具的信息匯聚與集中存儲,包括:監控告警、性能與狀態信息。以及配置信息,系統用戶權限管理的處理等。
展現層
展示層通過統一WEB的方式提供對各種監控性能指標、網絡拓撲結構的展示。
網新恩普應用運維監控平臺以可視化的方式提供業務和資源的性能趨勢分析,從而可以預知業務瓶頸,變被動響應為主動預防,直接減少業務故障的發生,提升業務部門的滿意度;另一方面,恩普公司從業務角度提供業務的架構視圖、業務故障根源分析視圖,業務故障可直接分析定位,并關聯展示資源的各類信息、資源關系可視化、資源狀態可視化,有效支撐故障原因分析,縮短故障分析時間,從而提升業務保障能力;恩普應用運維監控平臺提供了各類資產統計視圖、資源拓撲視圖等,資源及容量情況、資產投入情況、資源關系情況可輕松全面掌握,隨時可提供給其他部門或者領導各類統計報告。
1、網絡系統監控
實現網絡設備、網絡安全設備的在線狀態、CPU利用率、內存大小、設備日志、設備各種表信息的監控。對網絡線路運行狀態監控,包括線路聯通性、線路響應時間、線路流量、線路帶寬利用率、線路錯包率、線路丟包率等信息。對網絡設備接口狀態進行監管,包括接口狀態、接口流量性能等信息。持續監視、報告網絡的運行情況,發現異常及時告警;設備故障與鏈路阻斷告警,設備與鏈路性能告警,異常流量告警等。
2、主機系統監控
實現對HP-UX、AIX、Solaris主機、Windows主機、Linux主機運行狀況監控,包括主機的在線狀態、CPU利用率、內存大小及利用率、磁盤空間大小及利用率、主機上關鍵進程狀態及其對CPU和內存占用情況、提供關鍵服務狀態、提供所安裝軟件詳細列表、主機的設備信息、ARP信息、SYSLOG 信息、主機的網絡接口流量、丟包和錯包率等信息。
3、數據庫監控
實現對Oracle、Sybase、Informix、DB2、SQLServer、MySQL等主流數據庫的監控管理。監視數據庫運行狀態,包括數據庫進程、監聽狀態、例程狀態、控制文件、數據庫日志文件等信息;對數據庫資源監視,包括數據庫CPU、內存配置(SGA信息、PGA信息)、緩沖區命中率等信息;對數據庫存儲資源監視,包括數據庫文件系統、數據庫表空間、數據庫表、數據庫空間、文件空間等;對數據庫Session信息、鎖信息、數據庫用戶等信息監控。
在參數到達門限值時通過網管系統的事件管理機制發出警告,報告給數據庫管理員,以便及時采取措施。
4、中間件監控
實現對Weblogic、Tuxedo、Tomcat、JBOSS等主流中間件的運行狀態監控。
監控隊列信息、監控JDBC連接池信息、監控Web應用信息、JVM堆信息、服務信息。
監控運行狀態、服務啟動時間、安裝目錄、總安裝目錄、運行配置、JVM版本號、JVM可用內存、JVM最大內存、JVM總的內存、線程。
監控服務啟動、關閉時有無錯誤信息,服務已經處理的請求數、服務正在處理的交易;監控各類隊列參數:當前隊列的所有請求的參數和、實際請求數、平均隊列長度、隊列所在機器的LMID等;監控客戶端信息,包括客戶端狀態、啟動的交易數、提交的交易數、中斷的交易數等;監控交易信息,包括交易名、交易函數名、交易已經執行的次數、交易當前狀態。
5、虛擬化監控
實現虛擬化監控,如虛擬機主機的主機信息以及虛擬池下面的虛擬主機的主機信息。
6、系統用戶與日志管理
為保證安全性,所有登錄的用戶均采用統一的安全認證。通過用戶和角色控制每個管理員的權限,實現用戶和角色的多對多管理,嚴格劃分職責和權限。超級管理員可以創建角色和用戶,并為不同的角色分配不同的功能權限和管理域權限。一個角色可以包含多個用戶,一個用戶可以屬于多個角色 ,告警與用戶掛鉤。
大屏展現功能主要是面向中、大型用戶將其所監控的各種網絡設備、應用、服務及業務等資源的實時運行情況以平面化的圖像界面進行展現。主要包括資源告警一覽、交易一覽、數據庫一覽、中間件一覽、機房監控一覽等功能。系統以加強運維人員的實際體驗為出發點,通過實時的圖像界面、簡明扼要的圖標,有效避免了運維人員因整天面對枯燥的文字和簡單的數字而產生的視覺疲勞感,幫助運維人員更加全面、直觀的掌握所關注的每個核心網絡設備(包括安全設備、機房設備)、應用、服務及業務系統等資源當前運行情況等。
應用運維監控平臺提供智能的輪詢機制,對于不同的設備、不同的接口、不同的指標都可以設置不同的輪詢或監視周期,讓運維人員能夠均衡每個設備采集的敏感度、時間間隔與設備性能之間進行有效匹配。對于用戶特別重要的核心設備可以將其監視周期設置的比較短(如1秒,10秒),而對于不太重要設備則可以將監視周期設置的比較長(如300秒、甚至600秒)。一般情況下,核心設備的處理能力比較高,當設備一旦中斷運維人員需要及時了解設備的異常情況。如果輪詢周期設的比較短的話,設備一旦出問題可馬上通知到運維人員。對于非核心設備,通常它的處理能力比較低,如果將它的輪詢周期設置的比較短,頻繁的輪循會對設備的CPU、內存等將產生一定的影響。另外,非核心設備作為邊緣設備,如果發生問題對企業的整個業務影響也并非很大,所以通過智能的輪詢機制可以為企業關鍵的IT資源予以更多的關注,從而保障核心資源服務的持續可用性。
應用運維監控平臺可以將鏈路、網絡設備、服務、應用及業務等資源之間按照物理的邏輯關系建立依賴樹(一種依賴關系)。在這種情況下,當管理系統服務器的上聯設備發生故障時,系統將自己判斷整個數據流是否被堵塞及被堵塞的位置等。若系統檢測不到其它所有的設備的異常,則將自動對管理系統服務器的上聯設備產生相關異常等級的告警。在管理系統服務器上聯網絡設備接口關閉之后,系統會在拓撲圖上的非真正宕機的設備上以“?”顯示,在上聯真正有故障的網絡設備圖標旁以“禁止”符號表示,避免所有網絡設備、服務器、應用等大范圍同時進行“虛假”告警。從而幫助運維人員準確定位故障源,不僅大大減少了運維人員對故障猜測與分析的時間,而且有效提高了運維效率!
應用運維監控平臺提供告警敏感度功能,通過告警敏感度的設定并對IT資源進行自動監測。當IT資源的指標在某一時刻達到一個異常峰值時,對于此現象只是一次偶發情況,不能算是一次異常,系統則不會產生告警。當它連續違反閾值出現三次以后,系統才會產生一個異常。系統通過告警敏感度則可以過濾掉峰值情況(也叫毛刺現象),從而屏蔽不重要的告警信息,減少告警干擾,并幫助運維人員將精力集中在關鍵問題上。
應用運維監控平臺具有強大的知識庫功能,知識庫提供了各種異常情況所致原因、解決方法與操作步驟等具體參考信息。當異常發生時,在系統中只需點擊該異常信息,打開詳細信息頁面,即可自動關聯到系統的知識庫,顯示與該異常相關的知識。網絡管理人員可以在知識庫中查找與異常有關的條目,尋找解決方案。隨著新的“知識”不斷加入,知識庫會越來越強大,對用戶的幫助也會更大。