2015年5月28日,攜程網(wǎng)官網(wǎng)因“內(nèi)部錯(cuò)誤操作”宕機(jī)癱瘓近12小時(shí),所有業(yè)務(wù)無法正常辦理,這是繼前一日支付寶因“光纖被挖斷”大規(guī)模服務(wù)中斷后,又一重大網(wǎng)絡(luò)事件。5月29日,攜程網(wǎng)官方通報(bào)稱:對(duì)于28日攜程官網(wǎng)和移動(dòng)APP癱瘓的原因,經(jīng)其技術(shù)部門排查,確認(rèn)此次事件是由于內(nèi)部員工錯(cuò)誤操作而刪除了生產(chǎn)服務(wù)器上的執(zhí)行代碼導(dǎo)致。
這次事故,無疑讓企業(yè)信譽(yù)和經(jīng)濟(jì)都遭受到巨大損失;ヂ(lián)網(wǎng)+時(shí)代,業(yè)務(wù)連續(xù)性就是企業(yè)的生命線,而它在如此簡(jiǎn)單的故障面前竟脆弱至此,這充分暴露出了企業(yè)對(duì)信息化監(jiān)控管理重視不足,缺乏科學(xué)有效的管理手段和方法。本文無意針對(duì)攜程揣摩是非,只是探討從攜程事件折射出的信息化監(jiān)控管理問題。現(xiàn)代企業(yè)的信息化管理必須擁有連貫性和持續(xù)性,每一個(gè)環(huán)節(jié)出現(xiàn)問題都會(huì)造成災(zāi)難性后果。而攜程事件對(duì)于越來越依賴網(wǎng)絡(luò)的企業(yè)來說,著實(shí)上了深刻的一課,也提醒信息管理者去重視信息化監(jiān)控管理。
重視監(jiān)控管理流程
像攜程這樣的企業(yè),IT運(yùn)維往往非常復(fù)雜,然而出錯(cuò)的地方卻是在最簡(jiǎn)單的環(huán)節(jié),這只能說是監(jiān)控管理和流程方面尚不夠完善,缺乏有效的自動(dòng)化運(yùn)維支撐。對(duì)于一個(gè)海量、大規(guī)模的信息系統(tǒng),管理和流程的優(yōu)化梳理要重于人員的技術(shù)和經(jīng)驗(yàn),特別是在執(zhí)行一些日常性的、非決策性判斷的工作時(shí),管理機(jī)制和自動(dòng)化監(jiān)控措施就顯得非常重要,F(xiàn)如今,企業(yè)的產(chǎn)品迭代速度越來越快,小到一個(gè)系統(tǒng)補(bǔ)丁升級(jí)的操作流程,大到產(chǎn)品重構(gòu)的管理,都必須要有高效監(jiān)控系統(tǒng)的介入,去除人的因素影響,避免人為失誤。
建立有效預(yù)警措施
攜程事件體現(xiàn)在技術(shù)層面,企業(yè)的業(yè)務(wù)系統(tǒng)往往會(huì)有各種應(yīng)用以及相應(yīng)的接口,而對(duì)于這方面如果沒有嚴(yán)格的管理策略和嚴(yán)密的監(jiān)控,則很難主動(dòng)發(fā)現(xiàn)問題,比如性能下降、故障隱患等。當(dāng)然,也缺乏業(yè)務(wù)系統(tǒng)趨勢(shì)變化的預(yù)警分析。當(dāng)前基礎(chǔ)架構(gòu)的完備性基本得到保障措施,但這并不代表已經(jīng)有高級(jí)別的安全措施,畢竟沒有確保系統(tǒng)發(fā)生不測(cè)的萬全之策。必要的預(yù)警、報(bào)警技術(shù)手段不能忽視,因此,IT監(jiān)控產(chǎn)品必不可少。針對(duì)此次事件,明顯是運(yùn)維安全審計(jì)缺失或嚴(yán)重不規(guī)范,危險(xiǎn)操作沒有被立即阻止;而事故發(fā)生后也沒有立即報(bào)警并查明原因,則又說明追蹤系統(tǒng)不明確。
為什么做IT監(jiān)控
云計(jì)算推動(dòng)了數(shù)據(jù)中心的建設(shè),也讓各行各業(yè)開始了數(shù)據(jù)大集中的規(guī)劃。以往IT管理者們面對(duì)的可能只是一個(gè)機(jī)房的上百臺(tái)設(shè)備,而如今可能需要管理的是多個(gè)“數(shù)據(jù)中心”的海量設(shè)備。同時(shí),應(yīng)對(duì)應(yīng)用系統(tǒng)的爆發(fā)式增長(zhǎng),保障海量應(yīng)用系統(tǒng)的交付體驗(yàn),成為擺在每位IT管理者面前的難題。理清業(yè)務(wù)與IT間的依賴關(guān)系,查看到引起業(yè)務(wù)中斷的故障點(diǎn)和業(yè)務(wù)使用性能瓶頸,可以有效地避免系統(tǒng)宕機(jī)、進(jìn)程僵死。分析IT故障對(duì)整個(gè)業(yè)務(wù)系統(tǒng)的影響范圍,可以提高管理人員的工作效率,減少業(yè)務(wù)停頓時(shí)間,提高業(yè)務(wù)系統(tǒng)的可用性。
如何選擇IT監(jiān)控產(chǎn)品
美信科技(www.mxsoft.com)利用高效的開發(fā)和部署云監(jiān)控解決方案,保護(hù)和管理企業(yè)的基礎(chǔ)設(shè)施并幫助其優(yōu)化性能,利用對(duì)信息化管理的洞察力最大限度參與到企業(yè)業(yè)務(wù)網(wǎng)絡(luò)化業(yè)務(wù)建設(shè)過程中,并希望通過對(duì)企業(yè)應(yīng)用系統(tǒng)的全方位監(jiān)控支持推動(dòng)企業(yè)的業(yè)務(wù)增長(zhǎng)與投資回報(bào),最終促進(jìn)企業(yè)成功實(shí)現(xiàn)轉(zhuǎn)型。
美信云監(jiān)控采用自主開發(fā)、業(yè)界領(lǐng)先的預(yù)測(cè)式多任務(wù)分發(fā)技術(shù),把監(jiān)測(cè)密度從分鐘級(jí)提升到秒級(jí),以保證監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)性和精確性。企業(yè)業(yè)務(wù)的增加和產(chǎn)品快速升級(jí)帶來業(yè)務(wù)系統(tǒng)的復(fù)雜性,毫厘之間的疏漏都可能會(huì)造成無法挽回的損失。正因如此,美信云監(jiān)控的快速、靈活和高性能,為客戶解決問題贏得了寶貴時(shí)間;具備業(yè)界最強(qiáng)的預(yù)報(bào)警系統(tǒng),智能化故障告警管理,降低預(yù)警機(jī)制維護(hù)難度,杜絕人為錯(cuò)誤,保障信息系統(tǒng)的健康穩(wěn)定。