4. 是否更換過顯示器,更換另一台顯示器。
5. 去掉增加內存
6. 去掉增加的CPU
8. 檢查內存和CPU 插的是否牢靠
9. Clear CMOS
10. 更換主要備件,如係統板,內存和CPU
二、服務器故障排錯的基本原則是什麼
1. 盡量恢複係統缺省配置
a:硬件配置:去除第三方廠商備件和非標配備件;
b:資源配置:清除CMOS,恢複資源初始配置;
c: BIOS,F/W,驅動程序:升級最新的BIOS,F/W和相關驅動程序;
d: TPL:擴展的第三方的I/O卡屬於該機型的硬件兼容列表(TPL)嗎?
2. 從基本到複雜
a:係統上從個體到網絡:首先將存在故障的服務器獨立運行,待測試正常後再接入網絡運行,觀察故障現象變化並處理。
b:硬件上從最小係統到現實係統:指從可以運行的硬件開始逐步到現實係統為止。
c: 軟件上從基本係統到現實係統:指從基本操作係統開始逐步到現實係統為止。
3. 交換對比
a:在最大可能相同的條件下,交換操作簡單效果明顯的部件;
b: 交換NOS載體,既交換軟件環境;
c:交換硬件,既交換硬件環境;
d:交換整機,既交換整體環境;
三、服務器故障排除需要收集哪些信息?
•服務器信息:
1.機器型號
2.機器序列號(S/N: 如:NC00075534)
3.Bios 版本
4.是否增加其它設備,如網卡,SCSI 卡,內存,CPU
5.硬盤如何配置,是否做陣列, 陣列級別
6.安裝什麼操作係統及版本(Winnt 4, Netware, Sco, others)
•故障信息
1.在POST時,屏幕顯示的異常信息
2.服務器本身指示燈的狀態?
3. 報警聲和BEEP CODES
4. NOS的事件記錄文件?
5. Events Log 文件
•確定故障類型和故障現象:
1. 開機無顯示;
2.上電自檢階段故障;
3. 安裝階段故障和現象;
4. 操作係統加載失敗;
5. 係統運行階段故障;
第二部分 服務器硬件故障處理幾例
硬件故障是指服務器硬件出現異常而導致的各類錯誤。由於服務器構成比較複雜,因此在檢查的時候必須認真、仔細。下麵以一台IBM X3650為例說明。(例子,在實際問題中如果遇到相似現象,也需要具體問題具體分析,不要盲目套用)
有一台IBM X3650,配有4g內存,使用2個 XEON 5405帶12M高速緩存的處理器。開機後沒有任何顯示,但故障診斷板上出現BRD告gao警jing。這zhe種zhong錯cuo誤wu一yi般ban是shi板ban卡ka鬆song動dong或huo係xi統tong主zhu板ban故gu障zhang導dao致zhi,更geng換huan係xi統tong主zhu板ban開kai機ji可ke以yi看kan到dao正zheng常chang自zi檢jian信xin息xi,係xi統tong正zheng常chang進jin入ru,但dan出chu現xian死si機ji,關guan機ji拆chai除chu第di二er位wei置zhiCPU開機一切正常,把拆除的CPU放第一位置也可以正常使用,說明不是CPU問題,檢測CPU VRM,判斷是VRM故障導致,更換VRM係統正常。
相對處理器壞的情況來說處理器電壓模塊(VRM)出現故障的情況比較大。於是立即在另一台萬全4500中取下一個處理器電壓模塊,安裝在此服務器中。開機後,服務器依然沒有任何顯示,係統日誌上依然提示CPU電壓為0伏的信息,係統指示燈三燈依然不停在閃爍。這時的情況就比較明顯了。於是立即從另一台萬全4500中取下一個CPU安裝後,開機正常。
總結:
zaifuwuqideweixiuzhong,xiansuodouhuixiandepushuomili,yibanlaishuobukenengyicijiukeyizhunquedipanduanchuwentidesuozai。zheyangjiuyaoqiuxiangguanrenyuanyaoyouxinxinjinaixin。chuxiancuowuyibandeliuchengshitongguoxitongrizhishangdexinxilaijiejue,ruguomeiyoujiejuewentizaizhaochuqitayinsu,ranhouzaikanrizhixinxi。zongzhi,fuwuqichucuohou,bixuyibuyibujiejue,meiyoujiejingkeyan。
又如:有一台IBM X3850X5加電不開機不顯示,一會BRD告警,從管理口登錄SP界麵查看發現CPU板和I/O板均有報錯信息,初步判定CPU主板或I/O板故障,更換同型號CPU主板開機還是不成功,從管理口對該主板進行微碼升級,共有4gewenjian,wanbikaijichenggong。faxiankaijishixitongrizhimeiyourenhexinxi,qiexitongzhishidengbuliang。chubupanduanshidianyuanfangmianchuxianlecuowu。jingguozaixijianzha,faxianfuwuqidedianyuanshizhengchangde,yincizuidadekenengjiushifuwuqidedianyuanguanlibanchuxianguzhang。genghuandianyuanguanlibanhou,kaijixianshizhengchang。danzheshi,xindewentilaile:自檢時,用CTRL+M不能檢測到硬盤。
要避免硬件故障發生頻率,服務器管理人員必須注意服務器的使用環境完全正常。比較重要的服務器必須在恒溫、恒濕的環境;電壓也要符合,不僅要采用UPS,還必須接地線,必須是左零線、右火線,零地電壓在1~3伏。在開、關服務器上必須符合正常的流程。工作人員必須嚴格執行操作流程。
一般情況來說,服務器維修人員對於硬件故障隻要有豐富的經驗都能很快找出故障所在,如果不能解決問題請致:400666-0165。
第三部分 服務器常見軟故障解決思路與實例
服務器軟件故障是在服務器故障中占有比例最高的部份,約占70%,解決的過程必須更加深思熟慮。導致服務器出現軟件故障的原因有很多,最常見的是服務器BIOS版本太低、服務器的管理軟件或服務器的驅動程序有BUG、應用程序有衝突及人為造成的軟件故障。下麵分別舉例說明各類軟件故障的維修方法。
有一台萬全3500服務器,配置為雙PIII 500帶521K高速緩存的CPU、512M內存。開機後,係統日誌報電壓調節模塊異常(VRM)的錯誤,報錯的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。從cong表biao麵mian來lai看kan,極ji有you可ke能neng是shi服fu務wu器qi的de電dian壓ya調tiao節jie模mo塊kuai或huo其qi它ta硬ying件jian出chu現xian故gu障zhang,極ji容rong易yi導dao致zhi維wei護hu人ren員yuan認ren為wei是shi硬ying件jian故gu障zhang。維wei護hu人ren員yuan立li刻ke使shi用yong其qi它ta萬wan全quan3500的硬件來測試,發現即使使用新的配件,此服務器依然報VRM錯。就在一籌莫展的時候,維修工程師帶來了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),於是升級了CPU管理板塊的FIRMWARE後,服務器恢複立即正常。
FIRMWARE升級方法是, 1) 用軟盤啟動計算機,然後插入firmware軟盤並運行上麵的相關文件cabrillo; 2) 係統刷新BMC(主板控製器)和HSC(熱插拔背板控製器); 3) 然後係統詢問執行第幾個選項(通常為2); 4) 然後係統詢問服務器的電源配置(通常為2); 5) 如果回答有兩個電源,係統詢問服務器是否有輔助風扇——即在第三個電源(冗餘電源)的位置上 是否有風扇(通常為N); 6) 然後係統詢問是否重寫BMC kernel use area;(通常為N)然後係統詢問是否輸入一個asset tag; (通常為N) 7) 最後係統詢問在刷新後是否要重新啟動係統;(通常為Y)。這種升級方法也適合刷新係統BIOS等,命令的參數不同以及更新FIRMWARE及BIOS文件名不同,參數請參考服務器的說明。
任何一款服務器的FIRMWARE及BIOS都會有不同的BUG,因為BUG在所難免,所以我們不能錯誤地認為服務器的BIOS程序就很完善,而應該經常更新服務器的FIRMWARE及BIOS,隻是在升級之前應該小心謹慎,錯誤的升級方法將會導致嚴重的後果。
目前流行的中高檔服務器都擁有強大的管理程序,為客戶提供了方便的管理途徑;服務器也擁有各種操作係統下的驅動程序,方便了客戶在各種操作係統中的使用。但是,世上任何一款程序都會有一些BUG,這些BUG將影響用戶使用。但是服務器廠商總是會在第一時間內開發出新的程序,客戶隻需要及時更新這些程序就可以避免這類故障。
當服務器的軟件故障為此類時,表現的現象也不盡相同。一般來說,管理程序BUG會導致係統速度變慢,CPU占用率變高,無法正常使用某些功能等;驅動程序的BUG會導致死機、與(yu)某(mou)些(xie)軟(ruan)件(jian)有(you)衝(chong)突(tu),磁(ci)盤(pan)工(gong)作(zuo)不(bu)穩(wen)定(ding)等(deng)。查(zha)看(kan)管(guan)理(li)程(cheng)序(xu)是(shi)否(fou)出(chu)錯(cuo)的(de)最(zui)好(hao)的(de)辦(ban)法(fa)就(jiu)是(shi)在(zai)係(xi)統(tong)中(zhong)首(shou)先(xian)禁(jin)止(zhi)此(ci)類(lei)管(guan)理(li)工(gong)具(ju),再(zai)觀(guan)察(cha)服(fu)務(wu)器(qi)是(shi)否(fou)還(hai)是(shi)異(yi)常(chang)。由(you)於(yu)管(guan)理(li)工(gong)具(ju)是(shi)隨(sui)著(zhe)係(xi)統(tong)啟(qi)動(dong)而(er)啟(qi)動(dong)的(de),所(suo)以(yi)應(ying)首(shou)先(xian)避(bi)免(mian)它(ta)的(de)啟(qi)動(dong)。以(yi)WINDOWS NT4weili,jiushouxianzaiguanligongjufuwuzhongjinyongmouxiefuwuqiruanjianfuwu,zaixiugaizhucebiaozhongdeqidongxiangjike。ruguoshiqudongchengxuyouwentidehua,jiuyianquanmoshijinruxitong,kanshifouzhengchang。danshixuyaozhuyideshi,zaianquanmoshizhong,xitongsudubianmanshizhengchangde(特別是磁盤I/O方麵)。
服務器的維護人員就應該經常在服務器網站上下載最新的管理工具程序及驅動程序。這樣會減少很大一部份軟件故障的發生。
相比之下,軟件衝突造成的故障判斷比較困難,需要管理人員有比較豐富的經驗以及敏銳的觀察力。
曾經有一位用戶說,他有一台萬全的服務器無法安裝SQL SERVER 2000,已經重裝N次NT了le,排pai除chu是shi係xi統tong故gu障zhang。而er這zhe唯wei一yi的de服fu務wu器qi又you將jiang作zuo為wei非fei常chang重zhong要yao數shu據ju庫ku服fu務wu器qi,因yin此ci非fei常chang著zhe急ji。於yu是shi維wei修xiu工gong程cheng師shi去qu了le他ta的de公gong司si查zha看kan。這zhe台tai服fu務wu器qi所suo在zai的de機ji房fang是shi非fei常chang標biao準zhun、完善的機房,檢查了這台服務器的情況,發現並沒有硬件上的故障,於是排除了光驅讀盤力差的可能。但是,用戶刻的SQL SERVER 2000光盤引起了工程師的懷疑,工程師讓他拿出了正版的SQL SERVER安an裝zhuang,結jie果guo還hai是shi不bu行xing。在zai安an裝zhuang的de過guo程cheng中zhong,沒mei有you出chu現xian絲si毫hao錯cuo誤wu,可ke就jiu是shi在zai運yun行xing的de時shi候hou會hui自zi動dong退tui出chu,沒mei有you任ren何he提ti示shi。但dan是shi,我wo在zai管guan理li工gong具ju中zhong的de事shi件jian查zha看kan器qi的de係xi統tong日ri誌zhi中zhong卻que發fa現xian了le一yi條tiao信xin息xi:windata.exe導致一個無效的數據溢出。Windata是用戶自己編寫的一個程序,而且是隨操作係統啟動而啟動的程序。我立即結束掉這個進程後,再運行SQL一切正常。
對於此類軟件故障,操作員最好先查看有關的日誌,看看係統中是否有可疑的進程。目前的服務器無論是高端還是低端,對於SQL等標準程序的支持是相當可靠的,所以排除的重點就是結束可疑進程。
還有一種軟件故障是人為因素造成的,它一般是人為誤操作(包括沒按操作流程的操作)、意外關機(包括電源突然不供電)或非正常關閉應用程序造成的。
人為誤操作因素隻要加強管理都可以避免此類故障發生。在這裏就詳細說明意外關機或非正常關閉程序造成故障的方法。
正常關閉係統程序非常重要,尤其是WEB服務器,一個用戶就是因為沒有正常關閉係統程序而經曆了一次數據損壞甚至丟失的經曆。
※無論是服務器硬件還是軟件,隻要正確維護,類似數據災難或異常停機事件應該是可以避免的。