"崩潰"的2024:十大互聯網宕機事件復盤與啟示快訊
騰訊云出現服務故障,大量網友反饋WPS出現在線文檔無法打開的故障,美團APP因系統升級崩了 外賣服務無法使用 時間。

【TechWeb】誰能想到,“崩”也成了一種上熱搜的新姿勢。回顧2024年,微軟、騰訊云、支付寶、美團、阿里云、微軟、百度地圖、網易云音樂等多家頭部互聯網企業相繼發生App崩潰事件,引發網友熱議。
美團崩了,外賣點不了;百度地圖崩了,導航面臨挑戰;微軟藍屏故障,很多人工作直接受影響……不少人從這一次次的系統故障中深刻體會到,互聯網對生活工作的影響無處不在,認清網絡安全之重要。
我們梳理了2024年至今影響范圍較大的十起互聯網宕機事件,并按照對人們的影響將它們分為五個級別,從輕到重進行了排列。
五星:全球性事件
四星:國內,影響B端
三星:國內,影響C端,工作相關
兩星:國內,影響C端,生活必備
一星:國內,影響C端,非必須
下面,我們就一起看看這些宕機事件的“名場面”,以及背后的原因都是什么。
網易云音樂半年崩兩次 音樂播放等異常
時間:2024年8月
評級:??
8月19日,不少網友反映,網易云音樂頁面出現“服務器發生錯誤”,音樂播放、加載等均出現異常。隨后,“網易云音樂崩了”登上微博熱搜。
此次故障持續時間近兩個小時,期間有傳言稱,故障因“網易云音樂開發者刪庫跑路”。對此,網易云音樂官微回應稱,沒有刪庫,沒有跑路,因基礎設施故障,導致網易云音樂各端無法正常使用。

值得一提的是,今年3月,網易云音樂也曾因系統故障登上熱搜。彼時,網易云音樂登陸狀態失效,需要重新登錄。網易云音樂客服回應稱,登陸情況異常是網絡異常導致,與版本更新無關,故障在一段時間后修復。
中國移動系統故障 用戶無法登陸
時間:2024年10月
評級:????
10月21日,多位中國移動用戶反映,中國移動客戶端和官網等無法登陸,充值等業務無法辦理。
當晚,中國移動廣東公司官微發文回應稱,10月21日15:47起,中國移動廣東公司陸續接到客戶反映,官方App無法登錄、充值等業務無法辦理。技術部門迅速開展故障排查,發現負載均衡設備異常,導致業務系統不穩定。經過緊急處置,系統服務已于17:06全面恢復。

百度地圖短暫崩潰 定位出現錯誤
時間:2024年8月
評級:????
8月7日,百度地圖因為系統問題崩上熱搜。當天中午,有網友在社交平臺反映,百度地圖出現自駕路線無法正常規劃、定位錯誤等問題。緊接著,“百度地圖崩了”登上微博熱搜。

百度地圖客服對此回應稱,目前百度地圖系統確實出現錯誤,服務器正在緊急修復中。當天下午,相關問題已修復。
美團APP因系統升級崩了 外賣服務無法使用
時間:2024年4月
評級:????
4月26日,有網友在社交平臺表示,美團APP崩了,主頁面無法加載,外賣等服務無法使用。
對此,美團官方客服表示,目前系統正在升級,可能導致部分用戶的主頁面無法加載,已在緊急處理。等系統升級后,就會自動恢復正常。

雙11支付寶崩了 無法正常支付
時間:2024年11月
評級:????
在雙11大促即將收官之時,支付寶又崩了。11月11日,不少網友表示遭遇支付寶異常無法付款,付款時顯示“重復扣款”“支付失敗” “服務異常”等。還有網友稱,支付寶出現余額寶提現未到賬、花唄還款扣款成功但賬單沒清等。隨后,“支付寶崩了”登上熱搜榜第一。
支付寶官微對此很快作出回應,稱“因系統消息庫出現局部故障,導致部分用戶的支付功能受到影響。該故障不會影響用戶的資金安全,截止上午10點50分故障已經修復。”

4月9日,“支付寶崩了”也曾登上微博熱搜,部分網友反映支付寶無法使用,用不了螞蟻森林等功能。對此,支付寶客服表示,今日確有系統異常報錯,少量用戶訪問部分頁面時出現了短暫性的訪問不暢。這一情況已經快速恢復,用戶的資金和信息安全都不受影響,各項功能也都可以正常使用。
大周一 企業微信文檔崩了
時間:2024年12月
評級:??????
12月2日上午,不少著急開例會的網友反映,企業微信文檔崩了,頁面打不開,多項功能無法使用。
隨后,企業微信文檔官微發文稱,“因訪問激增,部分企業微信文檔出現文檔打開異常,目前已完成修復。”

WPS三個月崩了四次 在線文檔無法使用
時間:2024年9月
評級:??????
9月6日,“WPS崩了”再度沖上熱搜。大量網友反饋WPS出現在線文檔無法打開的故障。而這已經是該應用三個月內第四次宕機。
8月21日WPS就因發生服務異常而引發熱議。當天下午,WPS客戶服務官微回應:經緊急修復,WPS服務已恢復。作為補償,8月22日0點-24點,所有用戶可以免費領取15天會員。

7月8日上午,“WPS崩了”也曾沖上熱搜。隨后,WPS客戶服務致歉稱,“因服務異常給大家添麻煩了,大家反饋的問題我們在火速排查并修復,服務已恢復正常。”
另外,在6月28日下午,也有不少網友反映“WPS崩了”,金山文檔打不開。金山辦公當時向媒體回應稱,崩潰原因或與云服務異常有關。
阿里云服務器故障 小紅書、B站崩上熱搜
時間:2024年7月
評級:????????
在數字化時代,云服務被廣泛應用,涉及眾多企業和個人用戶。因此,云服務宕機的影響輻射范圍往往也更廣。
7月2日,“B站崩了”“小紅書崩了”“戀與深空崩了”“酷安都崩了”等多個詞條登上微博熱搜。不少網友反饋稱,B站視頻評論區及個人主頁無法正常加載,瀏覽歷史、消息界面、客服界面等均出現訪問故障。小紅書等應用也都出現網絡異常問題。隨后,有消息稱,此番連鎖故障與服務商阿里云有關。

同日,阿里云客服向媒體回應稱,上海地域可用區N網絡訪問出現異常,經過處理現已恢復,但B站服務器不是阿里云的。
據了解,阿里云在近幾年曾多次出現服務故障。2023年11月,阿里云產品控制臺訪問及API調用出現使用異常,導致“淘寶又崩了”“閑魚崩了”“釘釘崩了”等話題相繼登上微博熱搜。2022年12月,阿里云爆發香港Region可用區C大規模服務中斷事件,導致多個香港及澳門站點受到影響。
今年以來,B站也曾多次服務器崩潰,用戶無法正常訪問,此前官方解釋因服務器負載過高。
騰訊云服務器故障 1957個客戶報障
時間:2024年4月
評級:????????
4月8日,“騰訊云崩了”沖上熱搜。不少網友反饋稱,騰訊云出現服務故障,網頁顯示504錯誤,服務器網絡連接不上,控制臺無法訪問。
當天下午4點45分,騰訊云官微回應稱,官網控制臺相關服務出現異常,工程師緊急修復中,部分地區已恢復。下午5點16分,騰訊云在微博稱“整體已恢復”。
4月14日,針對此次故障,騰訊云官方發布復盤及情況說明。說明顯示,此次故障一共持續了近87分鐘,期間共有1957個客戶報障。云API異常導致控制臺登陸不上,而依賴云API提供產品能力的部分公有云服務,也因為云API的異常出現了無法使用的情況,比如云函數、文字識別、微服務平臺、音頻內容安全、驗證碼等。

騰訊云表示,此次故障最根本的原因,是在版本變更過程中,沒有有效執行沙箱驗證和預案演練,暴露了在變更管理上的不足,接下來將從提升系統韌性、強化變更管理與保護措施、增強故障響應與溝通能力等幾個方面快速進行改進和完善,以減少故障的影響范圍和影響時長。
微軟藍屏,一樁全球IT災難級事件
時間:2024年7月
評級:??????????
微軟藍屏故障,可謂今年內影響范圍最廣、損失最大的一起宕機事件,波及至少20多個國家,被認為是一樁全球IT災難級事件。
7月19日,全球約850萬臺裝有Windows操作系統的計算機出現“藍屏”死機現象,出現故障的終端并不限于桌面終端,還覆蓋了大量的服務器和云節點,而且相關主機重新啟動后依然會自動進入藍屏狀態,反復崩潰。緊接著,“微軟藍屏”登上微博熱搜。

由于微軟藍屏故障,美國、英國、德國、荷蘭、西班牙、波蘭、比利時等10多個國家的部分機場、車站、碼頭及媒體、電信、銀行等行業的運營受到影響。另外,多國的石油、天然氣、電力、股票、貨幣和債券交易商都在19日當天難以正常展開交易。
而導致這一歷史事件的主角是美國網絡安全企業CrowdStrike。CrowdStrike的一個錯誤更新導致受影響的電腦和服務器無法正常啟動,迫使它們陷入了恢復啟動循環。CrowdStrike在全球范圍內被廣泛用于管理Windows PC和服務器的安全。
值得一提的是,在此次全球微軟藍屏事件中,國內企業受到的沖擊很小。因為CrowdStrike是個典型的B2B企業,其安全控制軟件多部署在企業環境中,個人家庭電腦此次受影響很小,國內受到波及的主要是少數使用CrowdStrike軟件的外企。
寫在最后:
過去一年,互聯網應用宕機事件幾乎每個月都有發生,雖然大多都在2個小時左右的時間修復,但還是給用戶的生活和工作造成不便。而網友在吐槽應用崩潰導致的糟糕使用體驗之余,更是將宕機事件與各個大廠的裁員行為聯系了起來,認為“大廠裁員裁到大動脈”,波及到了相關技術、運維團隊的正常運作。
不過,這種言論也僅僅是網友的調侃或猜測,真實原因難以考究。理論上來說,一個成熟的互聯網公司,邊緣業務可能會因為人才流失受到影響,核心業務基本不可能,大規模宕機事件更多是技術層面的問題。
比如上文提到的,支付寶、百度地圖、網易云音樂、美團短暫崩潰都是因為系統故障或升級引起的,阿里云服務器故障是因為上海地域可用區N網絡訪問出現異常,微軟藍屏事件是第三方安全軟件的鍋,騰訊云崩潰則暴露了在變更管理上的不足。
隨著互聯網應用發展愈加成熟,硬件安全早已不成問題,但技術系統軟環境的安全仍有待完善。互聯網企業尤其是頭部企業,除了分析總結宕機原因,還應對系統架構進行優化,比如增強服務器的冗余設計,定期進行系統測試和演練等。
此外,各類應用交替出現故障,考驗平臺基礎設施、技術能力和修復速度的同時,如何做好用戶運營亦受到關注。平臺通過官方渠道及時告知用戶問題和大致恢復時間,避免用戶產生誤解和恐慌。像WPS、網易云音樂那樣給用戶補償會員也是一種方法。
最后,作為用戶,衷心希望各大廠商能夠筑牢網絡安全“防火墻”,宕機事件不再頻繁上演。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。