Categories
程式開發

春運期間,基礎平台如何應對高並發需求?


在阿里內部,春運被形容為“第二個雙11活動”,也是頭等重要的日子。

對於一年一度的周期性全國人口大遷徙,阿里雲智能作為基礎架構支撐平台,為12306網站,航空公司等客戶提供穩定的技術保障,一起在架構上持續優化,應對高並發的購票需求。

2020年春運比往年來得要早一些,1月10日起動,將持續到2月18日,共計40天,隨著智慧交通時代已來,春運是交通行業的高流量、高峰值場景。為了了解阿里雲智能在交通領域的整體技術和實踐與成果,我們採訪了阿里雲智能中國區大交通資深 SRE 架構師章君,就穩定性保障話題展開介紹。

章君介紹,阿里雲智能的 SRE 和國外的 SRE 不一樣,Google SRE 是指 Site Reliability Engineer (網站可靠性工程師),而在雲計算環境下,可以解釋為 Services Reliability Engineer(服務穩定性/可靠性工程師)。 Engine作為名詞,表示“引擎”,引擎是飛機或者汽車上發動機的核心部分。 Engineer 是引擎的工程師。阿里雲智能的 SRE 團隊作為服務團隊有雙重使命。對內,是驅動阿里雲智能各個部門不斷優化和前進的角色;對外,SRE 的使命是幫助客戶用好雲,圍繞客戶上雲之後整個業務架構的穩定性去做基礎建設,以業務為導向。

章君說,從網購車票開始之前,一些傳統的客戶在一年當中的流量有一定的高峰,但是網上購票之後,高並發體現的尤為突出,如何承載這樣的需求比較關鍵。

解決這樣的問題主要依靠三大核心能力:

洪峰承載能力:系統架構能力是否可以隨時隨地承接來自峰值的流量,除了能平穩承接,還要具備識別出不正常的流量,以至於不影響終端應用體驗。

高可用能力:具有承載能力並不是萬全之策,還需要具備解決異常情況的能力。比如在預測範圍之內發生了不當的網絡流量,如何對這些流量進行導流和切換,如何更快的收斂和風險控制。

數據安全保障能力:這也很重要,在業務安全方面,保證客戶業務能夠按照預期展開,比如說異常流量、惡意請求等預防。其次是平台安全,保證數據安全和客戶信息安全,防止洩密、篡改等。

要做到這樣的保障,需要什麼樣的能力?怎麼去做?章君老師解釋說,阿里雲智能除了為客戶提供計算能力,存儲能力,網絡能力和技術能力之外,還有一個是技術服務能力的輸出,會根據客戶的業務需求,全套或者按模塊輸出標準的高可用保障體系,叫做雲上護航。

具體而言,就是阿里雲智能在面向出行高峰,大促,晚會等大流量,高峰值情況下,為客戶提供的合理規劃彈性擴展、優化性能、安全可靠、抵禦流量攻擊、處理惡意請求、節點調度優化等技術能力,確保網絡順暢。

具體而言,提前和客戶規劃好當前業務目標是什麼,大概需要資源範圍,隨後進行標準壓測,在業務目標和當前的資源評估基礎上做一些應急預案,舉例:如果有超預期流量出現,阿里雲智能底層的產品能力是秒級響應的,可以快速上線和快速進行計算能力和容量吸收,這是彈性伸縮能力。

在安全方面,通過高防能力抵禦不正常請求,確保將不正常請求拒之門外。

網絡場景上,現在4G、5G 廣泛應用,各個網絡的集中點不一樣,如果邊緣節點出現了問題,系統如何通過智能調度選擇一個更快的路徑,快速的打開APP、快速打開業務,這是核心能力的保障。

春運期間,基礎平台如何應對高並發需求? 1 以業務流量圖為例,第一層是邊緣節點,可以快速打開圖片和靜態數據,同時可以做一些預熱環境。第二層是接入層,會涉及到抵禦,進行數據清洗,區分流量是否正常,對攻擊行為進行攔截。正常流量會進入到網關層,這裡面做了幾件涉及到流量調度和容災能力的事情,A機房的流量出現問題會調到B機房,進行正常流量接收。

在服務層(應用層),有符合任何業務場景的彈性計算規格,例如對網絡優化的,圖形處理,內存比較高的等。

再往上是緩存層和數據層。緩存層要查詢票務信息之類的,緩存對網絡延遲要求比較高,保證穩定性。數據庫的高可用上做到了自動化,可以根據數據的安全進行切換,按照數據進行調配。智能化運維也一樣,跟前麵類似,當緩存庫出現問題的時候,會進行切換。

從整個業務場景來看,流量一層一層進來後是慢慢變小的,這是漏斗形過濾網,和客戶一起從前期所有的業務做全鏈路評估、壓測分析、輸出方案、故障演練,在護航保障期間做專項監控和應急保障。為了讓客戶輕量化執行運維,阿里雲智能將 SRE 服務標準化,客戶會更聚焦於業務的戰略和業務架構實現,不需要關心底層技術。比如資源編排,限流降級等客戶在資源部署上可以實現了快速批量部署,快速配置,自動化限流等。

從穩定性本身來講,春運保障方面是有一套標準流程 SOP,要識別客戶的業務需求是什麼,然後根據業務訴求制定目標,理清楚他的業務邏輯。舉個例子,以秒殺為例,一定要清楚哪些是關鍵路徑,哪些地方需要非常嚴格和標準的評估,梳理出整體的業務邏輯,還需要一套標準壓測、流量評估、降級限流預案等方案體系。

需求和技術迭代之間既有矛盾,又是互相推動的,平衡點在於取捨之間。章老師說他們目前也處在探索過程,客戶的需求流程不斷變化,技術也在迭代,還有非常長的路要走。

嘉賓介紹:

章君(花名:辛達):阿里雲智能中國區大交通資深 SRE 架構師。 2012年加入阿里雲智能全球技術服務部-SRE-中國區大交通行業 TAM 團隊負責人,主要對該行業客戶的雲上業務架構進行穩定性方案輸出與建設。

活動推薦:

ArchSummit全球架構師峰會(深圳站)2020已經啟動,精選100+國內外專家技術實踐落地案例,AIOps、微服務架構、數據中台、大前端趨勢等等熱門技術,歡迎自薦或推薦。