日韩欧美亚洲一区swag_国产精品内射久久久久欢欢_欧美日产幕乱码久久久_天干天干啦夜天干天天爽_久播影院中文无码

首頁-新聞動(dòng)態(tài)-新聞詳情

高效處理數(shù)據(jù)中心故障的八條軍規(guī)

發(fā)布時(shí)間:作者:cobinet 10G屏蔽模塊瀏覽:560次來源:企業(yè)網(wǎng)D1Net
CobiNet(寧波)推薦文章:

要全天候運(yùn)行,難免會出現(xiàn)這樣那樣的故障。出現(xiàn)故障后,如何迅速找到故障原因并消除故障是一個(gè)數(shù)據(jù)中心運(yùn)維效率的最直接體現(xiàn)。數(shù)據(jù)中心一旦發(fā)生故障,影響了數(shù)據(jù)業(yè)務(wù),將給數(shù)據(jù)中心帶來巨大的經(jīng)濟(jì)損失,有時(shí)甚至是毀滅性的打擊,所以數(shù)據(jù)中心都不希望出現(xiàn)任何的故障。當(dāng)然,愿望是美好的,現(xiàn)實(shí)是殘酷的,數(shù)據(jù)中心包含有太多的電子設(shè)備和大量的軟件,雖然部署了很多的備份技術(shù)和設(shè)備,但依然很難做到永遠(yuǎn)都不出故障。那么問題來了,一旦數(shù)據(jù)中心出現(xiàn)了故障,該如何高效處理?本文將針對如何處理數(shù)據(jù)中心故障列出八條 軍規(guī) ,建議遇到數(shù)據(jù)中心故障時(shí),能遵守這些 軍規(guī) ,盡量減少故障給數(shù)據(jù)中心帶來的損失,同時(shí)避免相同的故障出現(xiàn)第二次。

第一條:摸清故障現(xiàn)象

數(shù)據(jù)中心的故障表現(xiàn)復(fù)雜多樣,先要弄清楚故障現(xiàn)象是什么?一般數(shù)據(jù)中心故障都是先從應(yīng)用層面表現(xiàn)出來,如果從這些方面開始分析,很容易走錯(cuò)方向。比如:應(yīng)用部分反饋訪問網(wǎng)頁慢、支付系統(tǒng)完成不了支付、游戲業(yè)務(wù)玩不了了等等,這些應(yīng)用業(yè)務(wù)的故障表現(xiàn)往往是片面的,不同技術(shù)水平的人和不同的業(yè)務(wù)部門的人反饋的故障現(xiàn)象都有差別,很容易讓人不知道該從何查起。這時(shí)要對反饋的故障現(xiàn)象進(jìn)行收集和整理,找出其中的共性。所謂摸清故障現(xiàn)象,就是找出此時(shí)數(shù)據(jù)中心里統(tǒng)一的故障現(xiàn)象。

第二條:測試并確認(rèn)故障范圍

根據(jù)故障現(xiàn)象,我們要查看這些故障是否來自于同一臺服務(wù)器、同一條鏈路或者是同一臺網(wǎng)絡(luò)設(shè)備等。所有的應(yīng)用業(yè)務(wù)都是在這些物理硬件設(shè)備上運(yùn)行的,其中的任何一個(gè)環(huán)節(jié)的設(shè)備出現(xiàn)故障,都會導(dǎo)致問題。此時(shí),各種網(wǎng)絡(luò)探測診斷工具就派上用場了。通過使用PING、Tracert、鏡像、流量統(tǒng)計(jì)、抓包等一系列手段,確定故障位置。經(jīng)過這樣一系列的診斷,可以將故障范圍縮小到某一臺設(shè)備或只有數(shù)臺設(shè)備的網(wǎng)絡(luò)區(qū)域。

第三條:嘗試定位

一個(gè)經(jīng)驗(yàn)豐富的數(shù)據(jù)中心技術(shù)人員,往往可以根據(jù)故障表現(xiàn)迅速找到故障原因。這時(shí),如果故障影響是可以容忍的,在條件允許的情況下,可以嘗試定位問題,試圖找到觸發(fā)此次故障的根本原因。此時(shí)技術(shù)人員一定要思路清晰,一步步來采集各種信息,深入分析。數(shù)據(jù)中心里有太多的設(shè)備,這些設(shè)備來自不同廠家,各自的技術(shù)特點(diǎn)也不同,沒有哪個(gè)數(shù)據(jù)中心技術(shù)人員能全部掌握,如果在短時(shí)間內(nèi)無法定位問題,或者是分析來分析去已經(jīng)沒有任何思路,此時(shí)就要放棄繼續(xù)定位。

第四條:收集故障時(shí)必要信息

一定要在故障的時(shí)候收集一些設(shè)備的日志、診斷、操作記錄、內(nèi)部隱藏信息,很多信息是設(shè)備廠家要求在故障時(shí)收集的,要按照廠家的要求將信息收集完整,以便這些信息可以供設(shè)備廠家分析,日后找出故障發(fā)生的原因。很多時(shí)候,數(shù)據(jù)中心的技術(shù)人員急于恢復(fù)業(yè)務(wù),往往忽略收集這些信息,這將為日后定位問題造成了極大難度。

第五條:故障恢復(fù)

為了盡快消除故障,需要對故障進(jìn)行恢復(fù)。此時(shí)不要上來就對疑似故障的設(shè)備直接重啟或者更換、下電,這樣極有可能會造成更為嚴(yán)重的故障。本來原來的故障可能只是偶爾有訪問出錯(cuò),有丟包,經(jīng)過設(shè)備重啟就可能造成整網(wǎng)的業(yè)務(wù)中斷。故障恢復(fù)的操作應(yīng)該從輕到重,逐步來嘗試執(zhí)行。比如路由異常,可以先對特定路由進(jìn)行刪除重建,不行的話,再對某一個(gè)鄰居進(jìn)行復(fù)位重建,還不行的話再對整個(gè)路由協(xié)議進(jìn)行重建,這樣一來最嚴(yán)重也是影響這一類路由協(xié)議的轉(zhuǎn)發(fā),對其它業(yè)務(wù)并沒有影響。還是不行再考慮重啟框式設(shè)備的板卡,再不行再考慮重啟整機(jī)設(shè)備,此時(shí)也盡量不要斷電重啟,很多設(shè)備只要不是斷電重啟還是會留下一些有意義的歷史記錄信息。如果數(shù)據(jù)中心的各個(gè)故障環(huán)節(jié)都是備份系統(tǒng),可以暫時(shí)將業(yè)務(wù)遷移到備份系統(tǒng)上來,故障的主用系統(tǒng)繼續(xù)保留,供技術(shù)人員繼續(xù)排查故障,直到找到故障原因,徹底消除后,再將業(yè)務(wù)切換回來。

第六條:再次驗(yàn)證業(yè)務(wù)的正確性

故障恢復(fù)后,要再次對數(shù)據(jù)中心承載的業(yè)務(wù)進(jìn)行各種測試,看是否所有的業(yè)務(wù)都恢復(fù)正常,同時(shí)與各個(gè)業(yè)務(wù)部門人員交流,確認(rèn)業(yè)務(wù)的正確性。當(dāng)?shù)玫綔?zhǔn)確反饋,所有業(yè)務(wù)都恢復(fù)正常后,再停止業(yè)務(wù)驗(yàn)證。

第七條:長時(shí)間觀察

數(shù)據(jù)中心故障有時(shí)會容易反復(fù),尤其是在沒有找到故障原因的情況下,所有的故障恢復(fù)手段都可能不是很有效的,很可能會再次出現(xiàn)故障。這時(shí)要密切關(guān)注數(shù)據(jù)中心業(yè)務(wù)運(yùn)行情況,一旦發(fā)現(xiàn)異常,及時(shí)處理。

第八條:分析故障原因,總結(jié)經(jīng)驗(yàn)教訓(xùn)

故障發(fā)生后,在還未明確故障原因的情況下,及時(shí)將收集的信息發(fā)給設(shè)備廠商,協(xié)同分析,在事后故障分析上要投入大量的人力、物力,直到找到故障原因。如果無法找到故障原因,對于數(shù)據(jù)中心是最可怕的事情,很可能會再次發(fā)生,造成二次的損失,所以要在故障分析上多投入,直到找到故障原因。找到故障原因后,要對產(chǎn)生這次故障的原因進(jìn)行深入分析,結(jié)合目前數(shù)據(jù)中心的運(yùn)行狀況,看是否有改進(jìn)的空間,及時(shí)總結(jié)故障處理過程中不足的地方,對薄弱環(huán)節(jié)進(jìn)行加強(qiáng),避免同樣的故障再次發(fā)生。

處理數(shù)據(jù)中心故障要嚴(yán)格依照這八條 軍規(guī) ,只有這樣才能在遇到故障時(shí),處理起來有章法、高效率,并能夠在處理故障的過程中積累實(shí)踐經(jīng)驗(yàn),不斷提升數(shù)據(jù)中心的運(yùn)維水平。



文章編輯:CobiNet(寧波),本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類屏蔽網(wǎng)線/屏蔽模塊及相關(guān)模塊配件,歡迎來電咨詢0574 88168918,網(wǎng)址www.10166888.com

我們是萬兆屏蔽模塊,10G屏蔽模塊屏蔽線生產(chǎn)廠家。

相關(guān)新聞

 

?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號