全球百事通！阿里云復(fù)盤“香港可用區(qū) C 發(fā)生大規(guī)模服務(wù)中斷”事件：將盡快處理賠償事宜

2022-12-25 16:20:33|

來源：IT之家作者：

IT之家 12 月 25 日消息，阿里云今日發(fā)布《關(guān)于阿里云香港 Region 可用區(qū) C 服務(wù)中斷事件的說明》稱，12 月 18 日，阿里云香港 Region 可用區(qū) C 發(fā)生大規(guī)模服務(wù)中斷事件。經(jīng)過復(fù)盤，阿里云進(jìn)一步說明了故障情況、問題分析和改進(jìn)措施。

IT之家了解到，阿里云在說明中向所有受到故障影響的客戶公開致歉，并盡快處理賠償事宜。

阿里云表示，此次香港 Region 可用區(qū) C 服務(wù)中斷事件，對(duì)很多客戶的業(yè)務(wù)產(chǎn)生重大影響，也是阿里云運(yùn)營十多年來持續(xù)時(shí)間最長(zhǎng)的一次大規(guī)模故障。

【資料圖】

以下為阿里云《關(guān)于阿里云香港 Region 可用區(qū) C 服務(wù)中斷事件的說明》全文：

北京時(shí)間 2022 年 12 月 18 日，阿里云香港 Region 可用區(qū) C 發(fā)生大規(guī)模服務(wù)中斷事件。經(jīng)過復(fù)盤，我們?cè)谶@里向大家進(jìn)一步說明故障情況、問題分析和改進(jìn)措施。

處理過程

12 月 18 日 08:56，阿里云監(jiān)控到香港 Region 可用區(qū) C 機(jī)房包間通道溫控告警，阿里云工程師介入應(yīng)急處理，通知機(jī)房服務(wù)商進(jìn)行現(xiàn)場(chǎng)排查。09:01，阿里云監(jiān)控到該機(jī)房多個(gè)包間溫升告警，此時(shí)工程師排查到冷機(jī)異常。09:09，機(jī)房服務(wù)商按應(yīng)急預(yù)案對(duì)異常冷機(jī)進(jìn)行 4+4 主備切換以及重啟，但操作失敗，冷水機(jī)組無法恢復(fù)正常。09:17，依照故障處理流程，啟動(dòng)制冷異常應(yīng)急預(yù)案，進(jìn)行輔助散熱和應(yīng)急通風(fēng)。嘗試對(duì)冷機(jī)控制系統(tǒng)逐個(gè)進(jìn)行隔離和手工恢復(fù)操作，但發(fā)現(xiàn)無法穩(wěn)定運(yùn)行，聯(lián)系冷機(jī)設(shè)備供應(yīng)商到現(xiàn)場(chǎng)排查。此時(shí)，由于高溫原因，部分服務(wù)器開始受到影響。

自 10:30 開始，為避免可能出現(xiàn)的高溫消防問題，阿里云工程師陸續(xù)對(duì)整個(gè)機(jī)房計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫、大數(shù)據(jù)集群進(jìn)行降載處理。期間，繼續(xù)多次對(duì)冷機(jī)設(shè)備進(jìn)行操作，但均不能保持穩(wěn)定運(yùn)行。

12:30，冷機(jī)設(shè)備供應(yīng)商到場(chǎng)，在多方工程師診斷下，對(duì)冷塔、冷卻水管路及冷機(jī)冷凝器進(jìn)行手工補(bǔ)水排氣操作，但系統(tǒng)仍然無法保持穩(wěn)定運(yùn)行。阿里云工程師對(duì)部分高溫包間啟動(dòng)服務(wù)器關(guān)機(jī)操作。14:47，冷機(jī)設(shè)備供應(yīng)商對(duì)設(shè)備問題排查遇到困難，其中一個(gè)包間因高溫觸發(fā)了強(qiáng)制消防噴淋。15:20，經(jīng)冷機(jī)設(shè)備商工程師現(xiàn)場(chǎng)手工調(diào)整配置，冷機(jī)群控解鎖完成并獨(dú)立運(yùn)行，第 1 臺(tái)冷機(jī)恢復(fù)正常，溫度開始下降。工程師隨后繼續(xù)通過相同方法對(duì)其他冷機(jī)進(jìn)行操作。18:55，4 臺(tái)冷機(jī)恢復(fù)到正常制冷量。19:02，分批啟動(dòng)服務(wù)器，并持續(xù)觀察溫升情況。19:47，機(jī)房溫度趨于穩(wěn)定。同時(shí)，阿里云工程師開始進(jìn)行服務(wù)啟動(dòng)恢復(fù)，并進(jìn)行必要的數(shù)據(jù)完整性檢查。

21:36，大部分機(jī)房包間服務(wù)器陸續(xù)啟動(dòng)并完成檢查，機(jī)房溫度穩(wěn)定。其中一個(gè)包間因消防噴淋啟動(dòng)，未進(jìn)行服務(wù)器上電。因?yàn)楸３謹(jǐn)?shù)據(jù)的完整性至關(guān)重要，工程師對(duì)這個(gè)包間的服務(wù)器進(jìn)行了仔細(xì)的數(shù)據(jù)安全檢查，這里花費(fèi)了一些必要的時(shí)間。22:50，數(shù)據(jù)檢查以及風(fēng)險(xiǎn)評(píng)估完成，最后一個(gè)包間依據(jù)安全性逐步進(jìn)行供電恢復(fù)和服務(wù)器啟動(dòng)。

服務(wù)影響

12 月 18 日 09:23，香港 Region 可用區(qū) C 部分 ECS 服務(wù)器開始出現(xiàn)停機(jī)，觸發(fā)同可用區(qū)內(nèi)宕機(jī)遷移。隨著溫度繼續(xù)升高，受影響的服務(wù)器停機(jī)數(shù)量持續(xù)增加，客戶業(yè)務(wù)開始受到影響，影響面擴(kuò)大到香港可用區(qū) C 的 EBS、OSS、RDS 等更多云服務(wù)。

阿里云香港可用區(qū) C 的故障，沒有直接影響客戶在香港其他可用區(qū)運(yùn)行的業(yè)務(wù)，但影響了香港 Region ECS 管控服務(wù)（Control Plane）的正常使用。因大量可用區(qū) C 的客戶在香港其他可用區(qū)新購 ECS 實(shí)例，從 12 月 18 日 14:49 開始，ECS 管控服務(wù)觸發(fā)限流，可用性最低跌至 20%。客戶在使用 RunInstances / CreateInstance API 購買新 ECS 實(shí)例時(shí)，如果指定了自定義鏡像，部分實(shí)例在購買成功之后會(huì)出現(xiàn)啟動(dòng)失敗的現(xiàn)象，由于自定義鏡像數(shù)據(jù)服務(wù)依賴可用區(qū) C 的單 AZ 冗余版本的 OSS 服務(wù)，無法通過重試解決。此時(shí)，部分 Dataworks、k8s 用戶控制臺(tái)操作也受到了故障影響。API 完全恢復(fù)可用為當(dāng)日 23:11。

12 月 18 日 10:37，阿里云香港可用區(qū) C 的部分存儲(chǔ)服務(wù) OSS 開始受到停機(jī)影響，此時(shí)客戶暫不會(huì)感知，但持續(xù)高溫會(huì)導(dǎo)致磁盤壞道，影響數(shù)據(jù)安全，工程師對(duì)服務(wù)器進(jìn)行停機(jī)操作，從 11:07 至 18:26 中斷了服務(wù)。阿里云在香港 Region 可用區(qū) C 提供了 2 種類型的 OSS 服務(wù)，一種是 OSS 本地冗余 LRS 服務(wù)（通常叫單 AZ 冗余服務(wù)），僅部署在可用區(qū) C；另一種是 OSS 同城冗余 ZRS 服務(wù)（通常叫 3AZ 冗余服務(wù)），部署在可用區(qū) B、C 和 D。在此次故障中，OSS 同城冗余 ZRS 服務(wù)基本沒有受到影響?？捎脜^(qū) C 的 OSS 本地冗余服務(wù)中斷時(shí)間較長(zhǎng)，因不支持跨可用區(qū)切換，需要依賴故障機(jī)房的恢復(fù)。從 18:26 開始，存儲(chǔ)服務(wù)器重新分批啟動(dòng)。其中，單 AZ 本地冗余 LRS 服務(wù)有部分服務(wù)器因消防問題需要做隔離處理?；謴?fù)服務(wù)前，我們必須要確保數(shù)據(jù)可靠性，花費(fèi)了較多的時(shí)間進(jìn)行完整性檢驗(yàn)工作。直至 12 月 19 日 00:30，這部分 OSS 服務(wù)（單 AZ 冗余服務(wù)）才恢復(fù)了對(duì)外服務(wù)能力。

阿里云網(wǎng)絡(luò)少量單可用區(qū)產(chǎn)品（如：VPN、Privatelink 以及少量 GA 實(shí)例）在此次故障中受到影響。12 月 18 日 11:21，工程師啟動(dòng)網(wǎng)絡(luò)產(chǎn)品可用區(qū)容災(zāi)逃逸，12:45 完成 SLB 等大部分網(wǎng)絡(luò)產(chǎn)品可用區(qū)容災(zāi)逃逸，13:47NAT 產(chǎn)品完成收尾逃逸。除上述少量單可用區(qū)產(chǎn)品以外，各網(wǎng)絡(luò)產(chǎn)品在故障期間保持了業(yè)務(wù)連續(xù)性，NAT 有分鐘級(jí)業(yè)務(wù)受損。

12 月 18 日 10:17 開始，阿里云香港 Region 可用區(qū) C 部分 RDS 實(shí)例出現(xiàn)不可用的報(bào)警。隨著該可用區(qū)受故障影響的主機(jī)范圍擴(kuò)大，出現(xiàn)服務(wù)異常的實(shí)例數(shù)量隨之增加，工程師啟動(dòng)數(shù)據(jù)庫應(yīng)急切換預(yù)案流程。截至 12:30，RDS MySQL 與 Redis、MongoDB、DTS 等跨可用區(qū)實(shí)例完成跨可用區(qū)切換。部分單可用區(qū)實(shí)例以及單可用區(qū)高可用實(shí)例，由于依賴單可用區(qū)的數(shù)據(jù)備份，僅少量實(shí)例實(shí)現(xiàn)有效遷移。少量支持跨可用區(qū)切換的 RDS 實(shí)例沒有及時(shí)完成切換。經(jīng)排查是由于這部分 RDS 實(shí)例依賴了部署在香港 Region 可用區(qū) C 的代理服務(wù)，由于代理服務(wù)不可用，無法通過代理地址訪問 RDS 實(shí)例。我們協(xié)助相關(guān)客戶通過臨時(shí)切換到使用 RDS 主實(shí)例的地址訪問來進(jìn)行恢復(fù)。隨著機(jī)房制冷設(shè)備恢復(fù)，21:30 左右絕大部分?jǐn)?shù)據(jù)庫實(shí)例恢復(fù)正常。對(duì)于受故障影響的單機(jī)版實(shí)例及主備均在香港 Region 可用區(qū) C 的高可用版實(shí)例，我們提供了克隆實(shí)例、實(shí)例遷移等臨時(shí)性恢復(fù)方案，但由于底層服務(wù)資源的限制，部分實(shí)例的遷移恢復(fù)過程遇到一些異常情況，需要花費(fèi)較長(zhǎng)的時(shí)間來處理解決。

我們注意到，同時(shí)在多個(gè)可用區(qū)運(yùn)行業(yè)務(wù)的客戶，在這次事件中依然可以維持業(yè)務(wù)運(yùn)行。對(duì)于業(yè)務(wù)需要絕對(duì)高可用的客戶，我們持續(xù)建議您采用全鏈路多可用區(qū)的業(yè)務(wù)架構(gòu)設(shè)計(jì)，以應(yīng)對(duì)各種可能的意外事件。

問題分析與改進(jìn)措施

1、冷機(jī)系統(tǒng)故障恢復(fù)時(shí)間過長(zhǎng)

原因分析：機(jī)房冷卻系統(tǒng)缺水進(jìn)氣形成氣阻，影響水路循環(huán)導(dǎo)致 4 臺(tái)主冷機(jī)服務(wù)異常，啟動(dòng) 4 臺(tái)備冷機(jī)時(shí)因主備共用的水路循環(huán)系統(tǒng)氣阻導(dǎo)致啟動(dòng)失敗。水盤補(bǔ)水后，因機(jī)房冷卻系統(tǒng)的群控邏輯，無法單臺(tái)獨(dú)立啟動(dòng)冷機(jī)，手工修改冷機(jī)配置，將冷機(jī)從群控調(diào)整為獨(dú)立運(yùn)行后，陸續(xù)啟動(dòng)冷機(jī)，影響了冷卻系統(tǒng)的恢復(fù)時(shí)長(zhǎng)。整個(gè)過程中，原因定位耗時(shí) 3 小時(shí) 34 分鐘，補(bǔ)水排氣耗時(shí) 2 小時(shí) 57 分鐘，解鎖群控邏輯啟動(dòng) 4 臺(tái)冷機(jī)耗時(shí) 3 小時(shí) 32 分鐘。

改進(jìn)措施：全面檢查機(jī)房基礎(chǔ)設(shè)施管控系統(tǒng)，在監(jiān)控?cái)?shù)據(jù)采集層面，擴(kuò)大覆蓋度，提升精細(xì)度，提高對(duì)故障的排查和定位速度；在設(shè)施管控邏輯層面，確保系統(tǒng)自動(dòng)切換邏輯符合預(yù)期，同時(shí)保證手工切換的準(zhǔn)確性，防止內(nèi)部狀態(tài)死鎖從而影響故障的恢復(fù)。

2、現(xiàn)場(chǎng)處置不及時(shí)導(dǎo)致觸發(fā)消防噴淋

原因分析：隨著機(jī)房冷卻系統(tǒng)失效，包間溫度逐漸升高，導(dǎo)致一機(jī)房包間溫度達(dá)到臨界值觸發(fā)消防系統(tǒng)噴淋，電源柜和多列機(jī)柜進(jìn)水，部分機(jī)器硬件損壞，增加了后續(xù)恢復(fù)難度和時(shí)長(zhǎng)。

改進(jìn)措施：加強(qiáng)機(jī)房服務(wù)商管理，梳理機(jī)房溫升預(yù)案及標(biāo)準(zhǔn)化執(zhí)行動(dòng)作，明確溫升場(chǎng)景下的業(yè)務(wù)側(cè)關(guān)機(jī)和機(jī)房強(qiáng)制關(guān)電的預(yù)案，力求更簡(jiǎn)單有效，并通過常態(tài)化演練強(qiáng)化執(zhí)行。

3.客戶在香港地域新購 ECS 等管控操作失敗

原因分析：ECS 管控系統(tǒng)為 B、C 可用區(qū)雙機(jī)房容災(zāi)，C 可用區(qū)故障后由 B 可用區(qū)對(duì)外提供服務(wù)，由于大量可用區(qū) C 的客戶在香港其他可用區(qū)新購實(shí)例，同時(shí)可用區(qū) C 的 ECS 實(shí)例拉起恢復(fù)動(dòng)作引入的流量，導(dǎo)致可用區(qū) B 管控服務(wù)資源不足。新擴(kuò)容的 ECS 管控系統(tǒng)啟動(dòng)時(shí)依賴的中間件服務(wù)部署在可用區(qū) C 機(jī)房，導(dǎo)致較長(zhǎng)時(shí)間內(nèi)無法擴(kuò)容。ECS 管控依賴的自定義鏡像數(shù)據(jù)服務(wù)，依賴可用區(qū) C 的單 AZ 冗余版本的 OSS 服務(wù)，導(dǎo)致客戶新購實(shí)例后出現(xiàn)啟動(dòng)失敗的現(xiàn)象。

改進(jìn)措施：全網(wǎng)巡檢，整體優(yōu)化多 AZ 產(chǎn)品高可用設(shè)計(jì)，避免出現(xiàn)依賴 OSS 單 AZ 和中間件單 AZ 的問題。加強(qiáng)阿里云管控平面的容災(zāi)演練，進(jìn)一步提升云產(chǎn)品高可用容災(zāi)逃逸能力。

4、故障信息發(fā)布不夠及時(shí)透明

原因分析：故障發(fā)生后阿里云啟動(dòng)對(duì)客釘群、公告等通知手段，由于現(xiàn)場(chǎng)冷機(jī)處理進(jìn)展緩慢，有效信息不夠。Status Page 頁面信息更新不及時(shí)引發(fā)客戶困惑。

改進(jìn)措施：提升故障影響和客戶影響的快速評(píng)估和識(shí)別拉取能力。盡快上線新版的阿里云服務(wù)健康狀態(tài)頁面（Status Page），提高信息發(fā)布的速度，讓客戶可以更便捷地了解故障事件對(duì)各類產(chǎn)品服務(wù)的影響。

總結(jié)

最后，我們要向所有受到故障影響的客戶公開致歉，并盡快處理賠償事宜。此次香港 Region 可用區(qū) C 服務(wù)中斷事件，對(duì)很多客戶的業(yè)務(wù)產(chǎn)生重大影響，也是阿里云運(yùn)營十多年來持續(xù)時(shí)間最長(zhǎng)的一次大規(guī)模故障。穩(wěn)定性是云服務(wù)的生命線，對(duì)我們的客戶至關(guān)重要。我們將盡一切努力從此次事件中吸取經(jīng)驗(yàn)教訓(xùn)，持續(xù)提升云服務(wù)的穩(wěn)定性，不辜負(fù)客戶所托！

阿里云

2022 年 12 月 25 日

標(biāo)簽：