新聞中心
引言
G行以全棧云平臺為基礎(chǔ),逐步推進云原生技術(shù)的應(yīng)用,探索數(shù)字化轉(zhuǎn)型路徑,為銀行業(yè)務(wù)快速發(fā)展提供有力技術(shù)支撐。同時,云原生也帶來了在微服務(wù)管理、云安全、健康監(jiān)測、依賴路徑、韌性要求等多方面的挑戰(zhàn),具體表現(xiàn)為:

創(chuàng)新互聯(lián)專注于博羅企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城網(wǎng)站制作。博羅網(wǎng)站建設(shè)公司,為博羅等地區(qū)提供建站服務(wù)。全流程按需網(wǎng)站建設(shè),專業(yè)設(shè)計,全程項目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)
微服務(wù)管理:多個微服務(wù)有機組合才能構(gòu)建一個健康的應(yīng)用程序,本質(zhì)上許多活動部件需要協(xié)同工作才能使系統(tǒng)正常運行。如果一項微服務(wù)失敗,則系統(tǒng)需要對其進行檢測并自動修復(fù)。隨著自動化部署引入,系統(tǒng)迭代頻繁,應(yīng)用系統(tǒng)微服務(wù)的管理越來越復(fù)雜,管理要求越來越高。
云安全:由于云原生環(huán)境的易變性,傳統(tǒng)邊界安全模型無法覆蓋所有風(fēng)險場景。在云原生技術(shù)架構(gòu)下,容器間隔離、微服務(wù)全生命周期變化、微服務(wù)間網(wǎng)格化依賴、集群資源自動調(diào)度等新領(lǐng)域都可能帶來不同層面的安全風(fēng)險,影響應(yīng)用系統(tǒng)穩(wěn)定性。因此,針對云原生的復(fù)雜性引入安全管理策略和技術(shù)手段進行有效防護和保障,是非常有必要的。
健康監(jiān)測:Kubernetes是非常復(fù)雜的平臺,為了保障基于Kubernetes的業(yè)務(wù)系統(tǒng)平穩(wěn)運行,了解Kubernetes的健康狀況至關(guān)重要。一些現(xiàn)有技術(shù)可以用來收集Kubernetes集群日志、各種指標(biāo)數(shù)據(jù)、事件和安全威脅,以幫助監(jiān)視集群的健康狀況,但單一指標(biāo)很難系統(tǒng)性的衡量基于Kubernetes的應(yīng)用系統(tǒng)健康程度。需要一套更加智能、直觀的方式,對各種指標(biāo)數(shù)據(jù)進行采集、整合、綜合分析,從而生成可視化的高階視圖。
依賴路徑:在一個由多集群、微服務(wù)化的云原生分布式環(huán)境中包含大量交互、依賴點,可能出錯的地方數(shù)不勝數(shù)。硬盤故障、網(wǎng)絡(luò)不通、流量激增壓垮某些組件,任何一次故障處理不好就有可能導(dǎo)致業(yè)務(wù)停滯、性能驟降,或者其他各種無法預(yù)料的現(xiàn)象;同時云原生環(huán)境中,也難以全面掌握何種故障會導(dǎo)致系統(tǒng)局部崩潰,甚至全面崩潰。需要盡可能地在這些情況發(fā)生之前找出系統(tǒng)中的脆弱點。
韌性要求:云原生帶來的業(yè)務(wù)分散、集群繁多、集群邊界受限等問題對云平臺也提出了新挑戰(zhàn),需要平臺提供可靠的韌性能力以保障業(yè)務(wù)穩(wěn)定運行。業(yè)務(wù)分散體現(xiàn)在應(yīng)用在各集群的差異化配置、業(yè)務(wù)跨云訪問、集群間應(yīng)用同步等;集群繁多體現(xiàn)在繁瑣重復(fù)的集群配置、云廠商集群管理差異、碎片化API訪問入口,如何讓集群對上層用戶透明等問題;集群邊界限制體現(xiàn)在資源調(diào)度受限于集群、應(yīng)用可用性受限于集群、彈性伸縮受限于集群。如何讓應(yīng)用可以面向多集群進行部署分發(fā),如何提供整體跨集群自動伸縮能力也是未來面臨的挑戰(zhàn)。
針對上述挑戰(zhàn),我們進行了一些探索和實踐,以提高平臺韌性,提升業(yè)務(wù)運行穩(wěn)定性。
云原生業(yè)務(wù)韌性的探索與實踐
1.實踐內(nèi)容
為了提升云上業(yè)務(wù)感知、保護和主動優(yōu)化能力,進一步應(yīng)對上文描述的一系列挑戰(zhàn),G行全棧云初步完成了云原生業(yè)務(wù)韌性能力建設(shè),實現(xiàn)了部分應(yīng)用系統(tǒng)跨集群調(diào)度、故障演練、多中心互備等功能,探索提升業(yè)務(wù)韌性,實現(xiàn)業(yè)務(wù)連續(xù)性與災(zāi)備管理。下圖是云原生業(yè)務(wù)韌性平臺架構(gòu),基于云原生技術(shù)實現(xiàn)應(yīng)用的跨集群配置備份和數(shù)據(jù)備份。
云原生業(yè)務(wù)韌性平臺功能涵蓋多集群管理、云原生應(yīng)用系統(tǒng)數(shù)據(jù)備份與恢復(fù)、跨集群資源及演練調(diào)度等核心模塊,具體內(nèi)容如下:
- 多集群管理:集群管理包括應(yīng)用管理、備份管理、策略管理、沙盤管理、活動監(jiān)控、監(jiān)控告警、容量管理等子功能模塊。同時保障納管集群標(biāo)簽、資源、節(jié)點、服務(wù)、狀態(tài)等數(shù)據(jù)的有效管理。
- 云原生應(yīng)用系統(tǒng)數(shù)據(jù)備份與恢復(fù):根據(jù)不同業(yè)務(wù)應(yīng)用條線的重要程度制定不同備份策略。核心業(yè)務(wù)、關(guān)鍵業(yè)務(wù)提供分鐘級甚至秒級備份,普通業(yè)務(wù)、非關(guān)鍵業(yè)務(wù)可按周或按月備份并能夠按照備份時間點進行快速恢復(fù)。
- 跨集群資源及演練調(diào)度:實現(xiàn)Kubernetes集群之間的資源調(diào)度,滿足業(yè)務(wù)高峰時的資源需求,其中包括調(diào)度策略的制定、調(diào)度組、歷史記錄及報告等;支持云上虛擬機與容器應(yīng)用的切換演練調(diào)度,應(yīng)對突發(fā)事件的切換調(diào)度,其中包括演練計劃、演練方案、演練報告、場景管理、流程庫、步驟庫、階段庫等。
2.應(yīng)用成效
目前全棧云韌性平臺已完成多個Kubernetes集群以及集群內(nèi)部分應(yīng)用系統(tǒng)納管,實現(xiàn)應(yīng)用災(zāi)備無縫切換,并基于平臺能力實現(xiàn)如下能力探索:
- 靈活備份策略:有效的縮短備份時間,靈活的備份頻度,提高RTO;避免備份冗余數(shù)據(jù),提高資源利用率。
- 穩(wěn)敏雙態(tài)災(zāi)備:基于不同語言的回調(diào),實現(xiàn)統(tǒng)一納管及調(diào)度;優(yōu)化切換效率,顯著提升RTO。
- 多云遷移:支持不同云廠商切換過渡,實現(xiàn)平臺級災(zāi)備能力;順應(yīng)國產(chǎn)化信創(chuàng)要求,雙棧并舉,防范系統(tǒng)性風(fēng)險。
后續(xù)改進
云原生技術(shù)帶來了更高層次的基礎(chǔ)設(shè)施抽象,讓應(yīng)用開發(fā)人員的關(guān)注點從基礎(chǔ)設(shè)施進一步分離,聚焦上層業(yè)務(wù)邏輯實現(xiàn)。全棧云在實踐韌性能力建設(shè)過程中,也面對與應(yīng)用系統(tǒng)結(jié)合的一系列問題,包括:
- 應(yīng)用定制多:每個應(yīng)用系統(tǒng)都有自己的架構(gòu)特性,在技術(shù)上無法實現(xiàn)應(yīng)用的一鍵災(zāi)備納管,只能針對每個應(yīng)用剝繭抽絲,一一定制。
- 配置梳理繁:不管是純云原生應(yīng)用,還是穩(wěn)敏雙態(tài)應(yīng)用,都有平臺級、系統(tǒng)級、服務(wù)級等各種復(fù)雜配置,災(zāi)備端納管起來容易錯一漏萬,嚴(yán)重時甚至影響到主端應(yīng)用的正常運行。
- 業(yè)務(wù)驗證難:針對應(yīng)用系統(tǒng)完成的容災(zāi)備份,與主端應(yīng)用的業(yè)務(wù)對等性無法得到完全、充分的驗證。
- 主備同步弱:云原生應(yīng)用系統(tǒng)迭代快,業(yè)務(wù)更新頻繁,備端應(yīng)用無法滿足一次納管,同步迭代。備端需要針對主端應(yīng)用系統(tǒng)的每次迭代進行主動同步,以確保主備服務(wù)的一致性。
- 為解決上述問題,在以“API+云服務(wù)”的形式構(gòu)建服務(wù)生態(tài)鏈的潮流下,我們也在探索技術(shù)手段和管理機制互相融合可行方案,具體包括:
- 災(zāi)備前移:管理上將應(yīng)用系統(tǒng)上云改造與云上災(zāi)備管理融合,技術(shù)上針對不同應(yīng)用系統(tǒng)制定不同容災(zāi)規(guī)范,確保完成上云即完成容災(zāi)建設(shè)。
- 平戰(zhàn)結(jié)合:平時完善BCP和DRP,確保其準(zhǔn)確性、有效性,演練驗證;戰(zhàn)時快速響應(yīng)、快速決策、快速處置;平戰(zhàn)結(jié)合,打造來之能戰(zhàn)、戰(zhàn)之能勝的業(yè)務(wù)連續(xù)性體系。
- 穩(wěn)敏雙態(tài)共存:業(yè)務(wù)線條貫穿敏態(tài)和穩(wěn)態(tài),信息系統(tǒng)本地應(yīng)急和異地災(zāi)備能力需穩(wěn)敏同時構(gòu)建;穩(wěn)敏技術(shù)架構(gòu)遵從BCM體系構(gòu)建支撐能力;風(fēng)險聯(lián)動業(yè)務(wù)和IT部門,構(gòu)建穩(wěn)敏兼顧的雙態(tài)組織和應(yīng)急體系。
- 高低頻事件聯(lián)動:依托低頻事件,構(gòu)建BCM體系業(yè)務(wù)和IT的最后一道防線;面對高頻事件,實現(xiàn)日常運維和組件切換的聯(lián)動;高低頻事件聯(lián)動,切實實現(xiàn)資源共享,提升災(zāi)備投資ROI。
下圖是全棧云韌性平臺可行的優(yōu)化流程,從指標(biāo)制定、策略制定、能力建設(shè)、應(yīng)急演練、應(yīng)急切換、優(yōu)化改進以及影響分析報告等形成的一套業(yè)務(wù)系統(tǒng)的優(yōu)化閉環(huán),每一個步驟均通過相關(guān)的技術(shù)手段以達到預(yù)期目標(biāo)。在后續(xù)工作中我們將深入探索技術(shù)與管理的融合方案,服務(wù)于應(yīng)用系統(tǒng)業(yè)務(wù)連續(xù)性。
未來,G行將從IaaS、PaaS、SaaS、DevOps等方向進一步完善云原生系統(tǒng)的管理、調(diào)度、觀測和容災(zāi)演練能力,全方位構(gòu)建完整生態(tài)云體系,為云上業(yè)務(wù)韌性保駕護航。同時基于云原生架構(gòu)規(guī)劃推進業(yè)務(wù)系統(tǒng)建設(shè),繼續(xù)深耕金融科技領(lǐng)域,提高服務(wù)成本的透明度與可信度,期望通過自己的云原生架構(gòu)落地實踐為業(yè)界提供數(shù)字化轉(zhuǎn)型經(jīng)驗。
文章標(biāo)題:G行創(chuàng)新互聯(lián)業(yè)務(wù)韌性探索與實踐
標(biāo)題URL:http://m.5511xx.com/article/ccicoio.html


咨詢
建站咨詢
