0
從2006年,AWS公開發布S3存儲服務、SQS消息隊列及EC2虛擬機服務開始,云計算已經走過了十余年的發展歷史,中國的數百萬家大中小型企業也在云計算的浪潮中逐步摸索著最合適自己的IT模式。
很多企業從IDC托管到私有云、公有云、混合云,追隨著時代不斷革新自己的IT系統,尋求最高效率的IT架構;很多企業在面對自身超復雜業務場景時,為了追求系統穩定,選擇不同云服務商進行跨云災備和業務雙活;還有很多企業將自己的不同業務系統部署在不同的云服務商,以避免單一廠商對自己業務和數據的深度綁定,使得IT管理更靈活。
面對這一系列的業務需求變化導致的IT變革,多云正式走入了云計算的舞臺中央。
多云不是趨勢,已是事實。
根據《Flexera 2021 State of the Cloud Report》的數據,目前有92%的大型企業在使用多云,7%使用一朵公有云,1%使用一朵私有云。

隨著IT系統的不斷演進和業務需求的高速發展,企業面對著多云時代的龐大IT系統,亟待在困境中尋求解決之道:
首先,傳統的基礎設施管理已經變成了各種云服務的管理,如何在成百上千種云服務中尋找高效的管理方式?
再者,業務持續增長,應用架構越來越復雜,如何在多個云的不同云資源中快速構建完整的應用系統架構?
第三,市場需求千變萬化,業務模式日新月異,如何使龐大的IT系統能夠跟上市場的變化,讓“大象”敏捷轉身,甚至敏捷奔跑?
2019年開始,達達啟動了多云戰略,構建云原生體系,跨云管理,跨云雙活,歷時3年,與京東云一起探尋超大規模資源的調度管理模式,尋找高IT效率下的最優部署方式,尋逐艱難卻必須要走的跨云遷移之路。

多云戰略啟動伊始,達達集團旗下的兩大核心業務,達達快送與京東到家,其即時配送和電商系統都部署在公有云上,隨著達達業務快速增長,基礎業務和安全風控壓力逐漸增大,原有云服務商的算力和存儲也面臨資源短缺。
因此,達達技術團隊將部分算力和存儲遷移至京東云上,使得上下游業務連接更緊密,實現計算資源高彈性、成本壓縮與業務穩定。遷移過程中,達達集團旗下達達快送對原有的技術架構進行全面梳理與革新,實現傳統架構向云原生體系的升級。
同時,完成向京東云的首批遷移后,達達與京東物流的信息交互可以通過公有云的內網通道實現,規避了公網波動,提升了穩定的同時,大幅節省了網絡成本。
至此,達達走出了多云戰略的第一步。
云原生體系的搭建幫助達達實現了跨云管理,融合自身運維、運營、安全等一系列多云架構的擴展需求,將多云資源向業務層邏輯化供給,屏蔽了底層異構性。
云上遷移過程中,京東云為達達提供了4條專線以承載跨云間的數據傳輸服務,同時在網絡劃分、路由編寫、對接打通等領域幫助達達解決了遷移過程中大量高可用問題。同時,為了提升業務的穩定性和抗風險能力,達達在京東云上完成了數據庫備份和網絡高可用設計。
另外,面對來自IaaS層的安全防護需求,達達與京東云共同創建了立體化的業務防護體系,1年內,成功抵御了近20億次Web攻擊,發現上百個漏洞并提供專業修復和加固建議。同時面對達達來自業務層面的風險控制需求,京東云打造的實時業務風險識別安全體系,全面提升業務交易流程中的風險識別能力,降低黑灰產交易比例。
達達通過上云遷移實現了多云架構的雛形,但這種不夠徹底的多個云模式的弊病也逐漸顯現,每個云上的業務就像一個煙囪,與其他系統隔離,這種架構導致業務系統各自為戰,一方面降低了云資源的使用效率,一方面也減弱了云計算原本的快速便捷的優勢,使得達達這種“多個云”模式的整體資源成本不斷攀升。
除了資源成本不斷攀升,達達還面臨另外一個難題。
達達的業務涉及電商與物流兩個融合場景,大促時既要面臨訂單峰值激增,又要保證快遞員短時高效準確送達,平臺智能訂單分發系統和運力供需調控系統受到極大挑戰。任何業務系統的不可用事件都會引起線上與線下的連鎖反應,嚴重時會導致系統宕機,業務癱瘓。
在物流、電商等多個平臺的超復雜場景下,達達要兼顧資源成本和業務穩定性的雙重壓力。此時,跨云雙活解決方案走進了達達的視野。
借助京東云混合多云操作系統云艦的跨云多活能力,達達完成跨云雙活架構的搭建,通過注冊中心多云部署,業務就近注冊和調度,實現跨云平臺的業務自由切換。除了跨云管理之外,跨云雙活架構可以在多云一致的云原生運行環境下,通過高效調度,提升資源利用率,實現生產效能升遷,顯著降低IT資源成本。跨云雙活架構從根本上解決了多個云模式下煙囪式架構所帶來的資源利用率低下的問題。
至此,達達完成了多云戰略的第二步。
建立跨云雙活架構,每年為達達節省千萬的IT成本; 跨云雙活架構下,達達又在京東云的幫助下實現了兩個關鍵技術的突破。
一是數據庫的雙向復制。達達龐大的用戶規模使得訂單表和用戶表數據量突破上億條,此時數據庫的IO能力、處理能力遇到瓶頸。將數據庫進行分庫分表,可以規避性能極限,同時實現跨云的雙向復制。達達按照CityID進行分庫分表,跨云切換時,以城市為單位進行流量切換,確保系統數據的一致性,降低延時。
二是流量分發優化。打通隨時配和落地配兩個業務之間的VPC對等連接,使用私有IP地址在兩個VPC之間路由流量實現VPC中實例的彼此通信。這樣的VPC對等連接既不是網關也不是VPN,不依賴某一單獨的物理硬件,沒有單點通信故障也沒有帶寬瓶頸。
達達通過跨云雙活實現了降本增效,每年節約千萬級IT資源,但同時這一多云雙活架構也不斷面臨著新的挑戰,新業務系統上線帶來的架構調整,大促等流量爆發帶來的性能瓶頸,都不斷考驗著目前系統架構的最優性。
跨云雙活還不是終點,達達和京東云的技術團隊仍在不斷探索多云的更優路徑。
跨云遷移不只是跨云搬遷,而是與業務應用重構和跨云容災相結合,通過云原生操作系統屏蔽異構化問題,增加了多云遷移的靈活性和動態性,降低了遷移成本,實現跨云遷移在業務層面的無感知。
達達業務的實時性和用戶的超強感知性,決定了其平臺對于系統穩定性的超高要求。為了應對業務變化對于多云架構的實時考驗,京東云通過技術創新和場景實踐,打造了一套標準化的跨云遷移方案,確保跨云遷移和多云架構調整過程中,業務零感知,實現了上云,下云,多云,災備,雙活的“選擇自由”和“切換自由”。
無感知式跨院遷移的第一個門檻來自于遷移的分批策略如何更好的對業務系統拆解分批,以最大化的降低遷移服務不可用對實際業務造成的影響。京東云-云泰混沌工程平臺可以模擬某一遷移批次服務不可用,在此情況下實際驗證其他服務受到的影響,然后根據測試結果再來不斷的優化遷移策略,然后再次驗證,直到完成最終的遷移批次劃分方案。
無感知式跨云遷移的另外一個瓶頸來自數據庫的遷移,達達有100多個Redis集群,1000余個實例需要完成跨云遷移并能保持數據實時同步。京東云自研的跨云遷移工具RedisSyncer可以完成redis之間數據同步,支持跨版本、異構集群間的數據同步,能夠適應云上與云下、原生與托管等多種場景,滿足數據庫遷移過程中的同步、擴容等需求。
基于業務的動態變化和多云架構的調整,截至2022年4月,達達已經在京東云部署了超5萬核計算資源,實現落地配,即時配和電商系統的全面多云化,每年節省千萬級IT成本,運維效率提升30%。
歷時3年的多云戰略實踐,達達攜手京東云交出了一份滿意的答卷。
作為產業數智化的先行者,京東云基于零售、物流、健康、工業、園區等復雜場景的磨煉,持續輸出更貼近業務場景的產品服務產業客戶。京東混合云操作系統云艦可以提供多個公有云、多個私有云、混合云以及各種異構資源的統一運行環境。向下可以融合混合多云環境,屏蔽多云差異、實現多云一體、應用一致運行;向上可以提供業務所需能力,以PaaS輸出各類數智化組件,保證PaaS應用在多云有完全一致的體驗。一方面提升了資源管理和運維效率,一方面保證了業務系統的靈活性。
多云已經成為IT架構的新寵,在商業上獲得更具性價比的服務,在技術上增加靈活性、可拓展性和穩定性。京東云作為云原生領先實踐者及受益者,將持續向行業輸出在多云領域的探索和成果,幫助更多企業實現可持續發展。
雷峰網(公眾號:雷峰網)