騰訊云:顏面盡失的草臺班子快訊
2024年04月08日,騰訊云出現了一場全球性的大故障,用騰訊云官方的說法,崩了 74 分鐘(15:31 - 16:45),波及全球 17 個區域與數十款服務。
昨天下午,2024年04月08日,騰訊云出現了一場全球性的大故障,用騰訊云官方的說法,崩了 74 分鐘(15:31 - 16:45),波及全球 17 個區域與數十款服務。
事實影響是什么
但這與我觀察到的事實不符 —— 從故障范圍上來說,這次的故障幾乎是去年阿里云雙十一史詩級大故障的翻版 —— 小道消息是整個管控面 GG,云 API 掛了,所以現象與去年阿里云如出一轍:依賴云 API 的云產品控制臺不能用了。
被管控的純資源,如云服務器 CVM,云數據庫 RDS, 設置了公開讀寫訪問對象存儲 COS 不受影響可以繼續使用。然而依賴認證與API 的各種云 PaaS 服務,例如標準的私有讀寫的對象存儲 COS,就抓瞎了。
因為阿里云至今沒有做一個像樣的事后故障復盤,因此在《我們能從阿里云史詩級故障中學到什么》中,我為阿里云的這次故障做了非官方的技術復盤。同樣的判斷邏輯完全也適用于這次故障 —— 這樣的爆炸半徑,根因出在 Auth 上的概率很大。目前,騰訊云仍然沒有給出官方的事后故障復盤報告,也可能不會有了。
忽悠人的狀態頁
我的朋友楊攀曾寫過一篇《中國云服務走向全球?先把 Status Page 搞定》,討論了 Status Page (服務健康狀態頁)對于公有云服務的重要性,各家本土云廠商也跟進了這一特性,包括騰訊云。—— 狀態頁能在服務宕機的情況下有效減少客戶的焦慮,降低溝通成本,但它的核心價值在于 “建立與客戶的信任關系”。
看上去,騰訊云與阿里云的 Status Page 反應都比較遲緩,在故障發生后三四十分鐘才開始更新。而不是像 Cloudflare 等產品一樣及時更新故障,或采用自動化方式監測到故障后立即推送。但不同于阿里云 —— 雖慢卻誠實地標記了所有服務受到影響,騰訊云的 Status Page 連基本的真實性與準確性都堪稱稀爛。
例如,受到影響的對象存儲 COS 服務,在有用戶上報問題的幾個可用區中,我并沒有看到 Status 標紅。而這樣的例子還有更多。事實上如果問題真出在管控 API 上,那么影響的范圍應該和阿里云一樣 —— 所有服務的控制面。因此,這樣雞賊的做法只會給客戶留下:“不透明、有貓膩“ 的負面印象。
撒謊的三無公告
在故障出現 40 ~ 50 分鐘后,騰訊云終于發出了第一份故障公告,也是截止到目前 Status Page 上唯一一份公告。但其內容就一句話 —— 三無公告:無時間(故障時間),無地點(可用區/AZ),無范圍(影響服務)。而且姍姍來遲,比我替它發的公告《【騰訊】云計算史詩級二翻車來了》還晚了十分鐘。
但這份公告最致命的問題是真實性與準確性:首先,故障絕對不僅僅是“控制臺”,而是整個控制面。作為一個專業的云計算服務供應商,一字之差天壤之別,混淆兩者區別的原因,要么是蠢(缺乏專業素養,臺面混為一談)。要么是壞(避重就輕,推卸責任)。
請問,一個全身休克的人,說他 “面色異常”,這是一個真誠的回復嗎?請問,一臺被砸爛的筆記本電腦,說它“敲擊鍵盤沒有反應”是一個有意義的描述嗎?同理,一個控制面爆炸的公有云,說自己“控制臺異常”,是一個認真的回復嗎?
其次,從事后官微的發布與用戶群的反饋來看,在這個時間,“目前故障已恢復” 是在撒謊。至少相當一部分服務的可用性事件是在 16:45 標記恢復的,在17 點前后,騰訊云產品吐槽群中也仍然有一些問題上報。
我認為這份對騰訊云帶來的傷害遠比服務宕機要大的多 —— 首先,在及時性,準確性上體現出了極差的專業素養。其次,在真實性上有意做手腳,會傷及公有云,或者說一切生意的根本 —— 誠信。這對品牌形象是一個摧毀性打擊。
災難級別的公關
按理說,出現了這么嚴重的故障,應當用誠懇認真的態度去處理,但騰訊云官方微博居然還在抖機靈 —— 堪稱災難級別的公關水平。
這條微博也再次扇了騰訊云自己官網公告的大嘴巴子 —— 16:45 分發第一條帖子時,“工程師仍在緊急修復中”,17:16,距離第一次報告故障的 15:31已經過去近兩個小時,“已經整體恢復”。然而,根據騰訊云官網 16:21 發布的公告[1]聲稱:“故障已恢復”。從實際情況來看,再次證明了官網公告在說謊。
阿里云雙十一大故障的時候,剛剛開完云棲大會,打臉了吹下的極致高可用的牛逼,但畢竟隔了一周了。而騰訊云這次大故障的同時還在開發布會吹牛逼,還找特大號發了一篇軟文:《太意外了!國內80%大模型都存在鵝廠!》,發布時間 16:19,2分鐘后官網發出故障通告,堪稱光速打臉二次方。
與之形成鮮明對照的是,去年 11 月 Cloudflare 的故障,Cloudflare CEO Matthew 親自出來對故障進行道歉與復盤,相比之下,國內云廠商的危機公關堪稱災難級別 —— 徹底做實了草臺班子的稱號。
實錘的草臺班子
請允許我引用瑞典馬工的一句名言 :“阿里云是個工程質量差勁的正經云,但騰訊云是一群業余銷售加業務碼農玩游戲”。所謂光鮮亮麗的大廠,在里面也不過是一個又一個的草臺班子。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。