數(shù)據(jù)中心中斷的成本可能 是驚人的,數(shù)據(jù)中心專業(yè)人士報(bào)告說,大規(guī)模中斷的成本越來越高。最近的一項(xiàng)調(diào)查發(fā)現(xiàn),2020 年 16% 的停電造成的損失超過 100 萬美元,高于 2019 年的 10%。40% 的停電造成的損失在 10 萬至 100 萬美元之間,高于 2019 年的 28%。

不僅停機(jī)成本在增加,而且可預(yù)防的停機(jī)次數(shù)也在增加。2019 年,60% 的停機(jī)事件被認(rèn)為是可以預(yù)防的,到 2020 年,這一數(shù)字上升到 75%。電力和冷卻問題是 50% 停電的原??因。
遵循最佳數(shù)據(jù)中心實(shí)踐
數(shù)據(jù)中心經(jīng)理需要遵循最佳實(shí)踐來減少這些可預(yù)防事件造成的停機(jī)時(shí)間。
以下是成功的數(shù)據(jù)中心經(jīng)理使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理 (DCIM) 軟件提高正常運(yùn)行時(shí)間所遵循的 10 大最佳實(shí)踐:
- 利用計(jì)量設(shè)備的運(yùn)行狀況輪詢。 通過運(yùn)行狀況輪詢確保智能機(jī)架 PDU和其他計(jì)量設(shè)備正在運(yùn)行并可通過您的網(wǎng)絡(luò)訪問,這樣您就可以第一個(gè)知道您是否失去了對設(shè)備的監(jiān)控或停電。運(yùn)行狀況輪詢使您能夠立即收到有關(guān)設(shè)備已關(guān)閉的警報(bào),以便您可以快速做出反應(yīng)并在出現(xiàn)問題之前恢復(fù)服務(wù)。
- 設(shè)置和監(jiān)控閾值。 最佳做法是監(jiān)控和接收智能 PDU 和其他計(jì)量設(shè)備的陷阱。然后,對您收集的數(shù)據(jù)設(shè)置警告和臨界閾值,以便輕松了解您的設(shè)備狀態(tài)。使用企業(yè)健康儀表板,通過易于理解的紅-黃-綠顏色編碼,一目了然地查看閾值違規(guī)情況。如果您有違規(guī)行為,請使用您的儀表板向下鉆取并查看導(dǎo)致這些警告或嚴(yán)重情況的確切警報(bào)。
- 使用趨勢圖查看隨時(shí)間的變化。 趨勢圖非常有用,因?yàn)榧词鼓€沒有違反閾值,您仍然可以看到功率或溫度讀數(shù)是否隨時(shí)間增加。這使您能夠在發(fā)生閾值違規(guī)和潛在事件之前主動做出反應(yīng)。將您的圖表以每周自動報(bào)告的形式發(fā)送給您的管理層,讓他們了解數(shù)據(jù)中心發(fā)生的事情。
- 遵循 ASHRAE 指南和濕度冷卻圖表。 通過冷卻圖表確保您的設(shè)備符合ASHRAE對溫度和濕度的建議,使您能夠在一個(gè)視圖中查看大量傳感器。然后,您可以立即識別哪些設(shè)備在推薦范圍之外運(yùn)行,并采取相應(yīng)措施以維持正常運(yùn)行時(shí)間。
- 使用熱圖延時(shí)視頻可視化溫度傳感器讀數(shù)。 將您的環(huán)境傳感器數(shù)據(jù)轉(zhuǎn)換為帶有延時(shí)視頻的水平或垂直熱圖,以在熱點(diǎn)損壞設(shè)備之前快速識別和消除熱點(diǎn)。
- 監(jiān)控機(jī)柜容量和冗余度。 創(chuàng)建一份每日報(bào)告,突出顯示容量低且危險(xiǎn)地接近冗余要求之外的機(jī)架。
- 使用儀表板可以一目了然地查看運(yùn)行狀況、電源和冷卻情況。 遠(yuǎn)程數(shù)據(jù)中心管理儀表板非常有助于將數(shù)據(jù)轉(zhuǎn)化為易于共享的可操作信息,并支持?jǐn)?shù)據(jù)驅(qū)動的協(xié)作。您應(yīng)該監(jiān)控的必備 KPI包括每個(gè)機(jī)柜的峰值功率負(fù)載、剩余電源容量天數(shù)、機(jī)柜電源故障轉(zhuǎn)移冗余、電源鏈斷路器利用率、每個(gè)機(jī)柜的最新溫度、每個(gè)機(jī)柜的 delta-T 和每個(gè)機(jī)柜的最高溫度。
- 監(jiān)控每個(gè)斷路器的容量。 使用自動跟蹤每個(gè)斷路器連接處的功率的數(shù)據(jù)中心管理軟件,以確保不超過額定值。通過入口或出口儀表的實(shí)時(shí)讀數(shù),該軟件將防止您施加超過斷路器限制的負(fù)載。
- 三相負(fù)載平衡。 不平衡的電源會導(dǎo)致斷路器過早跳閘和高壓,從而縮短設(shè)備的使用壽命。設(shè)置三相電源的閾值以在設(shè)備違規(guī)時(shí)接收警報(bào)。然后,根據(jù)此信息采取行動以保持所有階段的平衡并保持正常運(yùn)行時(shí)間。
- 模擬故障轉(zhuǎn)移并測試假設(shè)情景。 不要等到為時(shí)已晚才發(fā)現(xiàn)發(fā)生故障時(shí)會發(fā)生什么。使用 DCIM 軟件模擬故障轉(zhuǎn)移并確保 IT 設(shè)備始終可用。您還可以使用確定可用容量的報(bào)告來測試假設(shè)場景,以在發(fā)生故障時(shí)提供覆蓋范圍。

不要等待數(shù)據(jù)中心中斷發(fā)生
防止中斷的價(jià)值是巨大的。最好的數(shù)據(jù)中心經(jīng)理認(rèn)識到這一點(diǎn),并遵循這些最佳實(shí)踐來保持正常運(yùn)行時(shí)間。以他們?yōu)榘駱?,利用完整?DCIM 解決方案,實(shí)現(xiàn)一流的監(jiān)控和報(bào)告功能,您可能會為您的組織節(jié)省數(shù)百萬美元。






