浪潮NF520數據庫服務器的自動掉電故障
故障現象:
價值近10萬的浪潮NF520shujukufuwuqijinqipinfanchuxianzidongdiaodianguanjixianxiang,diaodianhoudianyuanzhishidengchuxianhuangdengtishi,bingqiezaiciandianyuanqidonganniu,wufaqidong。bixubadianyuanxianbaxia,dengdaifangdianjieshuhou,zaichashangdianyuanxiancainengzhengchangqidong。youyugaifuwuqifudanzhezhengfuzhuwangzhanheshiminxinshengwangdeshujukufuwugongneng,yinciyidantingji,biranzaochengwangzhanduiwaifuwuzhongduan。erjifangneideqitajishitailangchaoNF280服務器一直運行正常。
故障排查及分析:
檢查操作係統windows2003的事件日誌,發現無任何停機記錄,很明顯是在操作係統不知道的情況下的突然停機,基本可以排除由於操作係統故障所引發的停機。
從現象看,首先可以斷定是供電係統故障。
由(you)於(yu)機(ji)器(qi)為(wei)新(xin)購(gou),並(bing)且(qie)另(ling)一(yi)台(tai)相(xiang)同(tong)的(de)設(she)備(bei)也(ye)存(cun)在(zai)同(tong)樣(yang)的(de)故(gu)障(zhang),兩(liang)台(tai)新(xin)設(she)備(bei)共(gong)有(you)四(si)個(ge)電(dian)源(yuan)模(mo)塊(kuai),都(dou)出(chu)現(xian)問(wen)題(ti)的(de)概(gai)率(lv)極(ji)低(di),基(ji)本(ben)上(shang)也(ye)排(pai)除(chu)了(le)機(ji)器(qi)本(ben)身(shen)電(dian)源(yuan)係(xi)統(tong)出(chu)問(wen)題(ti)的(de)可(ke)能(neng)。
經檢查NF520服務器由於功率較大(1570W)沒mei有you經jing過guo機ji櫃gui的de供gong電dian係xi統tong,而er是shi單dan設she了le供gong電dian插cha座zuo,並bing且qie用yong一yi條tiao電dian纜lan直zhi接jie連lian接jie到dao變bian電dian開kai關guan櫃gui,從cong而er懷huai疑yi是shi電dian纜lan連lian接jie問wen題ti。經jing蕪wu湖hu電dian信xin專zhuan業ye電dian工gong檢jian查zha,此ci電dian纜lan連lian接jie極ji不bu規gui範fan,存cun在zai較jiao大da安an全quan隱yin患huan。主zhu要yao表biao現xian在zai兩liang點dian:一(yi)是(shi)規(gui)範(fan)施(shi)工(gong)中(zhong),從(cong)供(gong)電(dian)插(cha)座(zuo)到(dao)開(kai)關(guan)櫃(gui)的(de)連(lian)接(jie)電(dian)纜(lan)應(ying)該(gai)為(wei)一(yi)條(tiao)完(wan)整(zheng)的(de)電(dian)纜(lan),不(bu)能(neng)有(you)接(jie)頭(tou)。而(er)實(shi)際(ji)上(shang)這(zhe)條(tiao)電(dian)纜(lan)是(shi)兩(liang)根(gen)不(bu)同(tong)材(cai)質(zhi)的(de)電(dian)纜(lan)連(lian)接(jie)而(er)成(cheng)的(de),必(bi)然(ran)後(hou)造(zao)成(cheng)電(dian)流(liu)阻(zu)抗(kang)過(guo)大(da),嚴(yan)重(zhong)時(shi)會(hui)發(fa)熱(re),產(chan)生(sheng)安(an)全(quan)事(shi)故(gu)。二(er)是(shi)施(shi)工(gong)中(zhong)選(xuan)擇(ze)的(de)電(dian)纜(lan),質(zhi)量(liang)明(ming)顯(xian)低(di)於(yu)原(yuan)配(pei)電(dian)纜(lan),並(bing)且(qie)很(hen)難(nan)看(kan)清(qing)除(chu)生(sheng)產(chan)廠(chang)商(shang)及(ji)生(sheng)產(chan)批(pi)次(ci),並(bing)且(qie)從(cong)外(wai)觀(guan)上(shang)看(kan)應(ying)為(wei)舊(jiu)電(dian)纜(lan),內(nei)芯(xin)銅(tong)絲(si)發(fa)黑(hei)。據(ju)蕪(wu)湖(hu)電(dian)信(xin)專(zhuan)業(ye)電(dian)工(gong)介(jie)紹(shao),此(ci)電(dian)纜(lan)根(gen)本(ben)無(wu)法(fa)滿(man)足(zu)專(zhuan)業(ye)機(ji)房(fang)使(shi)用(yong)。為(wei)此(ci),我(wo)們(men)使(shi)用(yong)了(le)兩(liang)條(tiao)電(dian)信(xin)的(de)專(zhuan)業(ye)電(dian)纜(lan)對(dui)供(gong)電(dian)線(xian)路(lu)進(jin)行(xing)了(le)更(geng)換(huan)。並(bing)且(qie)將(jiang)服(fu)務(wu)器(qi)的(de)兩(liang)個(ge)電(dian)源(yuan)模(mo)塊(kuai)分(fen)別(bie)和(he)兩(liang)條(tiao)電(dian)纜(lan)進(jin)行(xing)了(le)連(lian)接(jie),做(zuo)到(dao)了(le)供(gong)電(dian)線(xian)路(lu)的(de)局(ju)部(bu)冗(rong)餘(yu)。
在更換電纜後的12個小時內,係統運行正常,服務器沒有停機。但在隨後一天的晚上下班後,服務器再次停機。
在排除了線纜的原因後,按照繼續往上一級查找的方法,對UPS供電係統產生了懷疑。
故障解決:
把主UPS的對外輸出停止,從UPS設備接管穩壓工作,服務器運轉正常。
故障分析:
在兩台UPS分主從供電的情況下,主UPS曾經出現過打火和電容虛焊的情況,對服務器的供電目前還是依靠主UPS。huixiangyiqianmeicichuwentideshijiandoushizaifeizhengchanggongzuoshijian,shuangxiurihewanshangxiabanhou。xiabanhou,youyudalouyongdianliangjijujianshao,dianyakendingzenggao。tongshizixunlelangchaofuwuqide800支持電話,服務器電源出現黃燈,一般是電壓過高或過低造成的。由此可以推論由於外部電壓波動,而主UPS設備由於自身問題沒有起到應有的穩壓效果。造成了機房內電壓的瞬間波動,從而引發NF520服務器的電源模塊自動斷電保護。
那麼為什麼機房內的其他浪潮服務器沒有出現自動停機呢?其實原因很簡單,浪潮公司隻在NF520等高端產品上才配備了具有自動保護功能的電源模塊。而類似NF280這樣的產品上則沒有配備。
後記:
故障排除後第三天的晚上11點多,領導發短信“政府網和市民心聲網已斷多時,請處理!”。第二天早上看見短信後,驚出一身冷汗,難道第二台UPS又you出chu現xian問wen題ti了le?還hai是shi我wo的de判pan斷duan有you誤wu?顧gu不bu上shang吃chi早zao飯fan,連lian忙mang打da的de往wang單dan位wei趕gan。一yi見jian機ji房fang隻zhi見jian滿man地di的de電dian纜lan和he碎sui線xian,原yuan來lai施shi工gong隊dui在zai晚wan上shang十shi點dian多duo更geng換huan電dian纜lan,把ba主zhu電dian源yuan切qie斷duan了le。服fu務wu器qi當dang然ran無wu法fa運yun轉zhuan了le。不bu過guo由you於yu他ta們men是shi強qiang行xing斷duan電dian,沒mei有you按an規gui定ding先xian關guan閉bi係xi統tong再zai斷duan電dian,結jie果guo還hai是shi造zao成cheng了le個ge別bie服fu務wu器qi的de宕dang機ji,重zhong新xin啟qi動dong後hou,基ji本ben正zheng常chang。沒mei過guo幾ji日ri,判pan斷duan故gu障zhang的de那na台taiUPS自己由於電容擊穿,冒煙了





閩公網安備 35020302001891號