京東云穩(wěn)定性達行業(yè)最高標準:單云主機SLA提升至99.99%
來源:中金在線
?
2021-10-11 15:03:13
今年京東云峰會上發(fā)布京剛第四代云主機時,一項數(shù)據(jù)引起業(yè)界關(guān)注——“單云主機SLA承諾 99.99%”,這是迄今為止所有云服務(wù)商中最高的服務(wù)承諾。
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩(wěn)定性達行業(yè)最高標準:單云主機SLA提升至99.99% \">
服務(wù)等級協(xié)議(Service-Level Agreement,縮寫SLA),是服務(wù)提供商與客戶之間的正式承諾,具有法律效力。云服務(wù)廠商的SLA通常以最小化不可用時間為目標,保障云服務(wù)器運行的穩(wěn)定性與可用性。
99.975%到99.99%,云主機穩(wěn)定性大升級
越來越多企業(yè)選擇“上云”,用“云”代替本地數(shù)據(jù)中心,一個重要原因就是傳統(tǒng)IT基礎(chǔ)設(shè)施難以企及云服務(wù)的超高穩(wěn)定性。云廠商的SLA通常是線下數(shù)據(jù)中心的5倍以上,不僅大大降低了租用成本,也讓企業(yè)和用戶有了多元化選擇。
SLA的提升,意味著云服務(wù)商承諾提供的計算服務(wù)所能達到的服務(wù)質(zhì)量和標準在提升。數(shù)字的微小變化,背后是企業(yè)級服務(wù)可靠性的巨大進步。
京東云單云主機SLA從99.975%提升至99.99%,意味著其月不可用時間從10.8分鐘降低至4.32分鐘,不可用時長降低了60%,標志著京東云在云服務(wù)穩(wěn)定性領(lǐng)域達到行業(yè)最高標準,進一步保障企業(yè)關(guān)鍵業(yè)務(wù)在云上平穩(wěn)、順滑運行。
京剛軟硬一體虛擬化架構(gòu),云主機性能的底層保障
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩(wěn)定性達行業(yè)最高標準:單云主機SLA提升至99.99% \">
虛擬化是云主機的核心技術(shù),基于公有云、專有云、混合云、邊緣計算等多樣化產(chǎn)品形態(tài)發(fā)展趨勢,京東云自主研發(fā)了行業(yè)領(lǐng)先的全技術(shù)棧云計算虛擬化引擎--“京剛”, 并兼容云主機、裸金屬、原生容器等原有各種計算服務(wù)形態(tài),實現(xiàn)了虛擬化架構(gòu)的統(tǒng)一升級。
“京剛”的核心功能模塊全部源自京東云自研虛擬化技術(shù),實現(xiàn)了專有場景芯片自主研發(fā)技術(shù)的突破性創(chuàng)新。它將云計算的完整核心技術(shù)棧–計算虛擬化、網(wǎng)絡(luò)虛擬化和存儲虛擬化,高度集成到京東云自主研發(fā)的智能芯片中,實現(xiàn)了真正的硬件虛擬化,在提供高吞吐量、低延遲的虛擬網(wǎng)絡(luò)和存儲設(shè)備的同時,還從硬件級別隔離了用戶負載與管理負載,最大程度提高了云計算平臺的安全性。
故障預(yù)測+自動恢復(fù),智能系統(tǒng)保障云主機穩(wěn)定性
此次SLA提升,是在2020年12月京東云發(fā)布單云主機穩(wěn)定性達99.975%基礎(chǔ)上的再次提升,不到一年的時間內(nèi)兩次升級,已遠超行業(yè)內(nèi)2-3年的平均提升周期,這得益于一套基于全方位數(shù)據(jù)驅(qū)動的故障預(yù)測及自動恢復(fù)系統(tǒng)。
借助這套系統(tǒng),京東云可以對云主機進行涵蓋軟硬件的多維度、毫秒級別全棧響應(yīng)。通過智能分析,學(xué)習(xí)相關(guān)歷史數(shù)據(jù),可實現(xiàn)高準確率的故障預(yù)判,并結(jié)合豐富的熔斷策略,采取有效措施避免對用戶產(chǎn)生影響,減少用戶損失。在對單機穩(wěn)定性要求極高的行業(yè),比如游戲行業(yè)中,單云主機SLA的提升意義重大。
故障域隔離,多層次架構(gòu)保障云服務(wù)高可用
面對政企客戶的數(shù)字化轉(zhuǎn)型需求,京東云提供完整的云基礎(chǔ)設(shè)施和應(yīng)用開發(fā)平臺,不僅有高達 99.99% SLA標準的IaaS服務(wù),還有云原生的PaaS服務(wù)、AI和IoT的全棧服務(wù)體系、多層次安全防護和合規(guī)認證。
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩(wěn)定性達行業(yè)最高標準:單云主機SLA提升至99.99% \">
為保障整體公有云服務(wù)的穩(wěn)定性,京東云在長期實踐中探索出出一套多層次高可用架構(gòu),并已在京東的復(fù)雜業(yè)務(wù)場景中得到充分驗證。
跨地域部署實現(xiàn)災(zāi)備或雙活(地域級別高可用),以及單地域下跨多可用區(qū)部署實現(xiàn)低延遲服務(wù)高可用(可用區(qū)級別高可用)是兩種常見的高可用架構(gòu)模型。在此基礎(chǔ)上,為進一步提高單可用區(qū)內(nèi)部署業(yè)務(wù)的可用性,并降低服務(wù)系統(tǒng)升級迭代對客戶業(yè)務(wù)的影響,京東云優(yōu)化了資源管理和調(diào)度,提出了故障影響域的概念,其包括:硬件故障影響域和管理軟件故障影響域。
硬件故障影響域,是數(shù)據(jù)中心內(nèi)由網(wǎng)絡(luò)交換機或電源設(shè)備故障造成的單點硬件故障最大影響范圍,通??梢岳斫鉃橐粋€或一組機架。不同影響域內(nèi)的服務(wù)器,由于存在電力網(wǎng)絡(luò)的物理級別隔離,因此可以最小化物理硬件潛在故障、網(wǎng)絡(luò)中斷或電源中斷的影響。用戶可配合使用“高可用組”產(chǎn)品實現(xiàn)反親和性調(diào)度,將云主機實例創(chuàng)建在多個故障影響域內(nèi),最大程度規(guī)避局部硬件故障對業(yè)務(wù)的影響。
管理軟件故障影響域,是指由云服務(wù)系統(tǒng)管理軟件故障造成的云資源生命周期管理異常影響范圍。隨著云上用戶體量和資源規(guī)模逐步擴大,京東云在單地域下以分組集群模式管理系統(tǒng)軟件及服務(wù),將多個可用區(qū)內(nèi)的計算資源及系統(tǒng)服務(wù)橫向劃分為多個邏輯分組,多分組集群模式下系統(tǒng)服務(wù)的部署均以分組為最小單位,每個分組可以實現(xiàn)獨立升級,以此精確控制軟件故障機系統(tǒng)升級對用戶的影響范圍,降低服務(wù)異常對用戶業(yè)務(wù)的影響,實現(xiàn)無感知的平滑升級。
大規(guī)模復(fù)雜場景磨練,護航企業(yè)數(shù)字化轉(zhuǎn)型
單云主機的穩(wěn)定性承諾提升到 99.99%,折射出京東云的前沿技術(shù)優(yōu)勢和豐富業(yè)務(wù)經(jīng)驗積。歷經(jīng)京東零售、京東物流、京東科技等京東集團內(nèi)部核心業(yè)務(wù)的千錘百煉,并通過歷年京東618及京東11.11考驗,京東云在保障服務(wù)穩(wěn)定性方面有長期的技術(shù)積累和實踐。
伴隨京東體系的持續(xù)高速發(fā)展,京東云始終面臨數(shù)據(jù)流量的大規(guī)模增長,從前端網(wǎng)站、訂單、結(jié)算、支付、搜索、推薦,到后端的倉儲、配送、客服、售后全流程,為滿足各類業(yè)務(wù)系統(tǒng)在云上的平穩(wěn)運行,磨練出京東云在云服務(wù)穩(wěn)定性方面的的極強能力。
以今年618為例,京東云每秒用戶訪問峰值同比提升152%,訪問帶寬同比提升185%,混合云操作系統(tǒng)云艦在線管理Pod數(shù)量超過200萬,運行容器峰值核數(shù)超過1000萬,背后是京東云以超高彈性應(yīng)對海量并發(fā)需求,以穩(wěn)定、安全、可信賴的技術(shù)服務(wù),高質(zhì)量護航全程用戶體驗。
不僅僅在京東體系內(nèi)部,京東云也在供應(yīng)鏈、物流、金融、保險、地產(chǎn)、健康等十余個行業(yè)深耕多年,本次單云主機穩(wěn)定性承諾升級,更是對廣大客戶的鄭重承諾,將助力更多政企客戶搭建高可用的云服務(wù),讓企業(yè)上云不再是難題,讓云上業(yè)務(wù)運作不再有障礙。
服務(wù)等級協(xié)議(Service-Level Agreement,縮寫SLA),是服務(wù)提供商與客戶之間的正式承諾,具有法律效力。云服務(wù)廠商的SLA通常以最小化不可用時間為目標,保障云服務(wù)器運行的穩(wěn)定性與可用性。
99.975%到99.99%,云主機穩(wěn)定性大升級
越來越多企業(yè)選擇“上云”,用“云”代替本地數(shù)據(jù)中心,一個重要原因就是傳統(tǒng)IT基礎(chǔ)設(shè)施難以企及云服務(wù)的超高穩(wěn)定性。云廠商的SLA通常是線下數(shù)據(jù)中心的5倍以上,不僅大大降低了租用成本,也讓企業(yè)和用戶有了多元化選擇。
SLA的提升,意味著云服務(wù)商承諾提供的計算服務(wù)所能達到的服務(wù)質(zhì)量和標準在提升。數(shù)字的微小變化,背后是企業(yè)級服務(wù)可靠性的巨大進步。
京東云單云主機SLA從99.975%提升至99.99%,意味著其月不可用時間從10.8分鐘降低至4.32分鐘,不可用時長降低了60%,標志著京東云在云服務(wù)穩(wěn)定性領(lǐng)域達到行業(yè)最高標準,進一步保障企業(yè)關(guān)鍵業(yè)務(wù)在云上平穩(wěn)、順滑運行。
京剛軟硬一體虛擬化架構(gòu),云主機性能的底層保障
虛擬化是云主機的核心技術(shù),基于公有云、專有云、混合云、邊緣計算等多樣化產(chǎn)品形態(tài)發(fā)展趨勢,京東云自主研發(fā)了行業(yè)領(lǐng)先的全技術(shù)棧云計算虛擬化引擎--“京剛”, 并兼容云主機、裸金屬、原生容器等原有各種計算服務(wù)形態(tài),實現(xiàn)了虛擬化架構(gòu)的統(tǒng)一升級。
“京剛”的核心功能模塊全部源自京東云自研虛擬化技術(shù),實現(xiàn)了專有場景芯片自主研發(fā)技術(shù)的突破性創(chuàng)新。它將云計算的完整核心技術(shù)棧–計算虛擬化、網(wǎng)絡(luò)虛擬化和存儲虛擬化,高度集成到京東云自主研發(fā)的智能芯片中,實現(xiàn)了真正的硬件虛擬化,在提供高吞吐量、低延遲的虛擬網(wǎng)絡(luò)和存儲設(shè)備的同時,還從硬件級別隔離了用戶負載與管理負載,最大程度提高了云計算平臺的安全性。
故障預(yù)測+自動恢復(fù),智能系統(tǒng)保障云主機穩(wěn)定性
此次SLA提升,是在2020年12月京東云發(fā)布單云主機穩(wěn)定性達99.975%基礎(chǔ)上的再次提升,不到一年的時間內(nèi)兩次升級,已遠超行業(yè)內(nèi)2-3年的平均提升周期,這得益于一套基于全方位數(shù)據(jù)驅(qū)動的故障預(yù)測及自動恢復(fù)系統(tǒng)。
借助這套系統(tǒng),京東云可以對云主機進行涵蓋軟硬件的多維度、毫秒級別全棧響應(yīng)。通過智能分析,學(xué)習(xí)相關(guān)歷史數(shù)據(jù),可實現(xiàn)高準確率的故障預(yù)判,并結(jié)合豐富的熔斷策略,采取有效措施避免對用戶產(chǎn)生影響,減少用戶損失。在對單機穩(wěn)定性要求極高的行業(yè),比如游戲行業(yè)中,單云主機SLA的提升意義重大。
故障域隔離,多層次架構(gòu)保障云服務(wù)高可用
面對政企客戶的數(shù)字化轉(zhuǎn)型需求,京東云提供完整的云基礎(chǔ)設(shè)施和應(yīng)用開發(fā)平臺,不僅有高達 99.99% SLA標準的IaaS服務(wù),還有云原生的PaaS服務(wù)、AI和IoT的全棧服務(wù)體系、多層次安全防護和合規(guī)認證。
為保障整體公有云服務(wù)的穩(wěn)定性,京東云在長期實踐中探索出出一套多層次高可用架構(gòu),并已在京東的復(fù)雜業(yè)務(wù)場景中得到充分驗證。
跨地域部署實現(xiàn)災(zāi)備或雙活(地域級別高可用),以及單地域下跨多可用區(qū)部署實現(xiàn)低延遲服務(wù)高可用(可用區(qū)級別高可用)是兩種常見的高可用架構(gòu)模型。在此基礎(chǔ)上,為進一步提高單可用區(qū)內(nèi)部署業(yè)務(wù)的可用性,并降低服務(wù)系統(tǒng)升級迭代對客戶業(yè)務(wù)的影響,京東云優(yōu)化了資源管理和調(diào)度,提出了故障影響域的概念,其包括:硬件故障影響域和管理軟件故障影響域。
硬件故障影響域,是數(shù)據(jù)中心內(nèi)由網(wǎng)絡(luò)交換機或電源設(shè)備故障造成的單點硬件故障最大影響范圍,通??梢岳斫鉃橐粋€或一組機架。不同影響域內(nèi)的服務(wù)器,由于存在電力網(wǎng)絡(luò)的物理級別隔離,因此可以最小化物理硬件潛在故障、網(wǎng)絡(luò)中斷或電源中斷的影響。用戶可配合使用“高可用組”產(chǎn)品實現(xiàn)反親和性調(diào)度,將云主機實例創(chuàng)建在多個故障影響域內(nèi),最大程度規(guī)避局部硬件故障對業(yè)務(wù)的影響。
管理軟件故障影響域,是指由云服務(wù)系統(tǒng)管理軟件故障造成的云資源生命周期管理異常影響范圍。隨著云上用戶體量和資源規(guī)模逐步擴大,京東云在單地域下以分組集群模式管理系統(tǒng)軟件及服務(wù),將多個可用區(qū)內(nèi)的計算資源及系統(tǒng)服務(wù)橫向劃分為多個邏輯分組,多分組集群模式下系統(tǒng)服務(wù)的部署均以分組為最小單位,每個分組可以實現(xiàn)獨立升級,以此精確控制軟件故障機系統(tǒng)升級對用戶的影響范圍,降低服務(wù)異常對用戶業(yè)務(wù)的影響,實現(xiàn)無感知的平滑升級。
大規(guī)模復(fù)雜場景磨練,護航企業(yè)數(shù)字化轉(zhuǎn)型
單云主機的穩(wěn)定性承諾提升到 99.99%,折射出京東云的前沿技術(shù)優(yōu)勢和豐富業(yè)務(wù)經(jīng)驗積。歷經(jīng)京東零售、京東物流、京東科技等京東集團內(nèi)部核心業(yè)務(wù)的千錘百煉,并通過歷年京東618及京東11.11考驗,京東云在保障服務(wù)穩(wěn)定性方面有長期的技術(shù)積累和實踐。
伴隨京東體系的持續(xù)高速發(fā)展,京東云始終面臨數(shù)據(jù)流量的大規(guī)模增長,從前端網(wǎng)站、訂單、結(jié)算、支付、搜索、推薦,到后端的倉儲、配送、客服、售后全流程,為滿足各類業(yè)務(wù)系統(tǒng)在云上的平穩(wěn)運行,磨練出京東云在云服務(wù)穩(wěn)定性方面的的極強能力。
以今年618為例,京東云每秒用戶訪問峰值同比提升152%,訪問帶寬同比提升185%,混合云操作系統(tǒng)云艦在線管理Pod數(shù)量超過200萬,運行容器峰值核數(shù)超過1000萬,背后是京東云以超高彈性應(yīng)對海量并發(fā)需求,以穩(wěn)定、安全、可信賴的技術(shù)服務(wù),高質(zhì)量護航全程用戶體驗。
不僅僅在京東體系內(nèi)部,京東云也在供應(yīng)鏈、物流、金融、保險、地產(chǎn)、健康等十余個行業(yè)深耕多年,本次單云主機穩(wěn)定性承諾升級,更是對廣大客戶的鄭重承諾,將助力更多政企客戶搭建高可用的云服務(wù),讓企業(yè)上云不再是難題,讓云上業(yè)務(wù)運作不再有障礙。