2014年1月29日 星期三

架構安全的機房環控

    現代企業藉由資訊科技來提昇競爭能力,內部員工亦高度依賴著各類型的資訊系統來執行其各項業務,當企業身處在一個高度競爭的產業,而競爭者們的產品差異不大的情況下,企業資訊能力的強弱,可以是最後決勝的關鍵。

    企業資訊系統的核心在於資訊部門,而機房是則是資訊部門的心臟,如何維持一個安全且穩定運作的機房,讓所有資訊系統能正常的脈動,並將養份輸送到企業每一部份,是資訊部門一個重要的課題。

A)機房環境監控的基本需求

    機房建置有五大系統:電力、空調、消防、安全及環控,其中前四項必須在建置時期就應有妥善的規劃安排,環控則可在建置後,依需求來予以導入。

一個基本的機房環控,必須能監控如下資訊:
‧溫度
            ‧電源系統
            ‧空調系統
            ‧UPS
        ‧溼度
            ‧漏水
            ‧消防系統
            ‧門禁系統

但要能全部整合上述項目的環控系統,所費不貲,花費可能在數十至上百萬之譜,對於中小企業是不小的負擔,實際上,中小企業因為主機數量不多、機房不大、MIS人力配置精簡,並無迫切需求建置複雜的環控系統,但也不能完全不建置,否則MIS人員恐怕會夜夜不成眠,畢竟機房內的機電系統與機器的變數太多了,不是人為所能預料且控制的。

因此若要建置一套最基本、花費最低廉、且又能讓MIS放心休息的機房環控系統,我認為必須至少需能監控此三個項目:溫度、影像、UPS,若此三個數據皆正常,則代表機房目前處於安全的狀態。

  • 溫度:這項是機房監控項目中最重要且必要的一項,因為機房任何異常,最終都會帶來溫度這項指標的上升;當溫度上升時,最常見的情況是機房的冷氣或空調出現了問題,或者是大量的機器高速運轉產生熱源,既有的空調不足以應付,造成機房溫度逐步的上升;若高溫持續且MIS未及時降溫處理,則部份企需散熱,以大量硬碟為主的storage(磁碟陣列或NAS)機器會先當機,再來是loading較重的運算主機,然後其它的機架型機開始當機停止運轉,最後是網路相關設備;另一種最遭的情況是機房失火的可能性,這種可能性會伴隨著有其它監控項目的異常,比如部份網路、電力中斷、機器當機等等先發生後,繼之而來溫度會陡然上升的情況。
  • 主機服務:溫度指標是反應機房目前有無重大危險的指標,但此指標若正常,也不全然代表機房在正常的狀態;只是單一台主機當機,可能是機器本身問題,但若多台主機同時當機,可能是網路設備異常,或者是某段電源供應出問題,甚至是更嚴重危機的前召,此時,我們必須搭配溫度、網路、影像、UPS等監控值來判斷。
  • 網路:若網路出現問題,大部份的情況下也會有部份的主機服務無法偵測到,我們必須搭配相關項目來判定。
  • 影像:利用web camera,我們可以定時或者在發生異常時,自動拍下現場照況並email給管理人員參考;這是判斷機房有無重大的危險(如跳電、失火、陌失人進入)等等的依據。
  • UPS:目前的UPS系統皆有網路孔提供即時的log可導出或遠端監控,提供管理人員判定目前電力是否正常的資訊。

B)建構環控主機的考量

    設置環控主機時,需考量到不受機房異常狀況的影響而能夠持續的偵測,例如,當一台網路switch當機時,若環控主機剛好也在接該switch上,那麼我們就收不到監控的訊息了,因此:
  • 環控主機所在的網段,與Firewall之間的網路設備愈少愈好。
  • 環控主機所用的電源迴路,建議與機房的不同。
  • 環控主機儘量單獨放置於機房遠離機櫃的角落。

C)規劃環控主機的配置

沒有留言:

張貼留言