Categories
程式開發

六家公司CTO講述曾經歷的“宕機噩夢”


你已沉沉睡去,卻突然被鬧鐘的鈴聲驚醒。揉揉眼睛,你點亮手機,發現是凌晨三點。好吧,又出問題了。

網站已經關閉,應用程序已經損壞,房間裡唯一的光亮來自你的電腦屏幕。系統中的“小幽靈”可能藏在任何地方,你的職責就是帶領團隊把它們找出來。

之後,修復一切,越快越好。

作為負責幫助各類DevOps 初創企業打理公關事務的角色,這樣的狀況在我眼前不斷重演。即使是經驗最豐富的工程師,也很有可能因為一次重大事故而留下伴隨終身的心理陰影。

但不可否認,每一家企業都會遭遇系統故障。而且,我們距離讓在線系統像電力等即開即用的傳統設施一樣觸手可及還有很長的路要走。因此,整個行業開始積極分享故障問題與真實故事(包括建立起透明且非指責性事後取證),這也讓每位從業者逐漸擺脫了宕機事件帶來的恐懼感與孤獨感。

這裡我們不會粗暴援引冷冰冰的數字,畢竟Amazon 每小時可能遇到的上百萬個問題,而小型企業只是引發糟糕客戶體驗。但無論規模如何,企業最終總會蒙受金錢損失、聲譽損失、工程資源浪費,並導致市場地位下降。

下面,我們就單從分享經驗與加以預防的思路,聽聽CTO 們自己講述的六個恐怖宕機事件。

Charity Majors,Honeycomb 公司CTO

六家公司CTO講述曾經歷的“宕機噩夢” 1

“通知推送失敗!”