在云計算風(fēng)起云涌的大背景下,用戶熱衷于選擇IaaS基礎(chǔ)設(shè)施服務(wù),主要原因是什么?無需單獨購買服務(wù)器等硬件資源,直接在所購買的云平臺部署應(yīng)用環(huán)境,省去了大量的IT基礎(chǔ)投資,也可以隨時獲取更彈性的擴(kuò)展資源。簡單的說,就是簡單、方便、可靠、成本低。
那么,選擇了云主機,是不是云服務(wù)的穩(wěn)定性和可用性就有保證了?用戶就可以高枕無憂了?如果你這么認(rèn)為,那么就大錯特錯了。
云主機非常態(tài)宕機下的用戶常態(tài)反映
從理論上說,云主機是在一組集群服務(wù)器上劃分出的多個類似獨立主機的部分,集群中的每臺機器都有云主機的一個鏡像備份。當(dāng)其中一臺機器出現(xiàn)故障時,系統(tǒng)會自動訪問其他機器上的備份。所以云主機在數(shù)據(jù)安全、運行穩(wěn)定性方面比傳統(tǒng)的VPS和服務(wù)器更強,而且因為它是虛擬的,費用比獨立服務(wù)器要便宜得多,所以云主機性價比還是很高的。
然而云主機因為各種原因出現(xiàn)意外故障而死機的現(xiàn)象卻時有發(fā)生。今年6月6日,青云的服務(wù)商睿江科技機房因雷暴天氣引發(fā)電力故障,導(dǎo)致青云廣東1區(qū)全部硬件設(shè)備意外關(guān)機重啟,青云官網(wǎng)及控制臺短時無法訪問,部署于GD1的用戶業(yè)務(wù)暫時不可用。6月21日,阿里云香港節(jié)點出現(xiàn)全線宕機,業(yè)務(wù)中斷超過12小時,甚至有部分用戶數(shù)據(jù)出現(xiàn)損毀,在業(yè)界引發(fā)軒然大波。
而在國外,云主機宕機事件一樣觸目驚心。單單2014年8月,全球發(fā)生了幾起大范圍的宕機事件,為這些云服務(wù)商帶來了巨大損失:AWS先后發(fā)生兩次宕機,導(dǎo)致其損失700萬美元;蘋果iCloud宕機致使300萬用戶受到影響;谷歌全面宕機,5分鐘全球流量下降40%。
縱觀國內(nèi)外云主機宕機的情況,宕機的原因可以說是非常態(tài)的,是各種各樣的客觀因素造成的,絕大多數(shù)是不可控的。但是對用戶的影響卻是致命的,損失巨大,即使中斷1分鐘客戶都是難以忍受的,客戶無法接受宕機以及其造成的損失卻是常態(tài)的。
實時監(jiān)控 及時預(yù)警
云主機宕機的元兇是包括CPU、內(nèi)存、硬盤在內(nèi)的服務(wù)器硬件以及引起服務(wù)器故障的機房設(shè)施。遠(yuǎn)離宕機,除了云主機服務(wù)商采用必要保證措施以外,有沒有第三方機構(gòu)對云主機的性能進(jìn)行評測,讓用戶對云主機穩(wěn)定性和可用性有一個客觀的認(rèn)知呢?答案是肯定的。中國軟件網(wǎng)、海比研究與國內(nèi)領(lǐng)先的應(yīng)用性能管理服務(wù)商云智慧公司合作,針對目前市場上主流的服務(wù)商的云主機,在業(yè)內(nèi)首次推出云主機性能評測報告。
此次性能評測覆蓋了百度云、美團(tuán)云、騰訊云、金山云、阿里云、青云、西部數(shù)碼、首都在線、ucloud、華為云、天翼云、安暢網(wǎng)絡(luò)、沃云等目前市場上國內(nèi)主流云服務(wù)商。此次評測采用了統(tǒng)一的硬件配置,所選擇的云主機基礎(chǔ)硬件環(huán)境均為8核CPU(騰訊、美團(tuán)、青云為虛擬機CPU)、8GB內(nèi)存、2M帶寬,系統(tǒng)為Linux 2.6.32的64位版本。通過云智慧監(jiān)控寶部署在全國范圍的數(shù)百個監(jiān)測點,真實模擬用戶訪問行為,對云主機性能從服務(wù)器監(jiān)控、網(wǎng)站監(jiān)控等維度進(jìn)行全方位檢測。
此次評測中服務(wù)器性能監(jiān)控是指針對服務(wù)器系統(tǒng)的運行狀態(tài)以及各項指標(biāo)的監(jiān)控,是的包括CPU平均使用率、CPU負(fù)載、內(nèi)存平均使用率、磁盤I/O寫入平均流量、磁盤I/O讀取平均流量等。7月6日當(dāng)天監(jiān)測數(shù)據(jù)如下表所示。

怎么看這些數(shù)據(jù)呢?正常的服務(wù)器工作狀態(tài)是CPU使用率在50%-60%之間,內(nèi)存在50%-70%之間,超過這個極限值,運維人員就需特別關(guān)注,且要發(fā)出預(yù)警。CPU負(fù)載就是CPU的工作量,多核CPU能夠并行處理的事務(wù)的數(shù)量應(yīng)該是個數(shù)與核數(shù)的乘積,CPU的負(fù)載數(shù)最好不要超過這個數(shù)值。CPU負(fù)載太高,即目前工作量已經(jīng)接近于CPU的最大計算能力了,應(yīng)該發(fā)出預(yù)警。而硬盤I/O是云主機性能的最大瓶頸,它不僅會影響高并發(fā)時服務(wù)器的響應(yīng)速度,更會對數(shù)據(jù)庫性能的產(chǎn)生影響。當(dāng)I/O性能大幅降低時,應(yīng)該及時發(fā)出預(yù)警,進(jìn)行必要的干預(yù)。
目前,云智慧的監(jiān)控寶可以根據(jù)服務(wù)等級協(xié)議設(shè)置告警,只要指標(biāo)超過設(shè)定值,監(jiān)控寶就可以第一時間向用戶發(fā)送告警通知。監(jiān)控寶覆蓋的告警通知方式包括郵件、短信、App Push、電話語音、URL回調(diào)通知等。
在本次評測中,我們在國內(nèi)主要的服務(wù)商的云主機上都部署監(jiān)控寶,分別對其以上指標(biāo)做了詳細(xì)的采集和數(shù)據(jù)分析,用真實的數(shù)據(jù)向外界展示了當(dāng)前國內(nèi)的云服務(wù)商的運行質(zhì)量,是用戶選擇合適的云主機提供商、杜絕宕機、減少損失的可靠參考。