日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
提高55%異地算力利用率,現(xiàn)已開源!響應(yīng)‘東數(shù)西算’AI大基建

在 AI 浪潮中,無論是企業(yè)還是國家,對算力的需求都日益高漲。近期啟動的“東數(shù)西算”項目,更是從宏觀層面大力打造 AI 基礎(chǔ)設(shè)施。但位于不同地理位置的計算機之間通信延遲較高,如何統(tǒng)籌兼顧、高效利用不同地區(qū)的計算能力,是當下亟待解決的重大議題。

創(chuàng)新互聯(lián)擁有一支富有激情的企業(yè)網(wǎng)站制作團隊,在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)深耕10多年,專業(yè)且經(jīng)驗豐富。10多年網(wǎng)站優(yōu)化營銷經(jīng)驗,我們已為上千中小企業(yè)提供了成都做網(wǎng)站、網(wǎng)站設(shè)計、外貿(mào)營銷網(wǎng)站建設(shè)解決方案,按需求定制開發(fā),設(shè)計滿意,售后服務(wù)無憂。所有客戶皆提供一年免費網(wǎng)站維護!

“東數(shù)西算”項目布局

與此同時,在大數(shù)據(jù)時代的背景下,如何保護隱私數(shù)據(jù)也成為社會熱點,國家出臺了數(shù)據(jù)安全、隱私保護的一系列法規(guī)。

針對以上難點,開源項目 Sky Computing 成功利用空間異構(gòu)分布式計算特性,在保證用戶數(shù)據(jù)隱私的前提下,可對聯(lián)邦學習加速達 55%。

地址:

https://github.com/hpcaitech/SkyComputing

空間異構(gòu)分布式計算

隨著深度學習的不斷發(fā)展,模型的尺寸日益增長,目前的主流模型,例如 BERT 和 GPT-3 都有著數(shù)以億計的參數(shù)。盡管這些模型在預(yù)測精度和性能提升方面有了長足的進步,但同樣也給存儲和運算等帶來了極大的壓力。為了加速AI模型訓練的速度,分布式機器學習得以應(yīng)運而生,它通常使用大量高速互聯(lián)的同類型處理器,如超級計算機。

超級計算機

而空間異構(gòu)分布式計算則進一步將擁有不同計算能力、通訊能力的計算資源組合在一起,作為一個大的集群完成大型計算任務(wù)。其中參與計算的硬件資源可以是大型專業(yè)計算服務(wù)器,也可以是小型的智能設(shè)備。目前,空間異構(gòu)分布式計算作為一種新形式的異構(gòu)計算,正在得到越來越多的關(guān)注。以我國為例,隨著「東數(shù)西算」工作的推行,越來越多的計算資源將廣泛地分布到西部各個地區(qū),如何協(xié)調(diào)這類混合計算集群聯(lián)合高效工作,也將成為高性能計算應(yīng)用的研究熱點。

近年來,云服務(wù)的規(guī)模、范圍和對象都被不斷擴展,越來越多的企業(yè)選擇將自己的數(shù)據(jù)存儲和數(shù)據(jù)計算相關(guān)業(yè)務(wù)部署在云端。然而,將所有服務(wù)依托于云端環(huán)境的缺點在于數(shù)據(jù)的遷移成本極高;同時,數(shù)據(jù)的隱私性和可靠性也難以保證;此外,分布在不同地區(qū)的云算力之間高昂的通信成本,也使得他們難以有效聯(lián)合完成高算力任務(wù)。

云計算

聯(lián)邦學習

為保護數(shù)據(jù)的隱私性,Google 于 2016 年提出聯(lián)邦學習,這是一種加密的分布式機器學習技術(shù)。顧名思義,它通過搭建一個虛擬的「聯(lián)邦」,將大大小小的數(shù)據(jù)孤島聯(lián)合到一起。每一個數(shù)據(jù)孤島都像是這個「聯(lián)邦」中的一個州,既保持一定的獨立自主(比如商業(yè)機密,用戶隱私),又能在數(shù)據(jù)不被對外共享的前提下共同建模,提升 AI 模型效果。目前,聯(lián)邦學習廣泛被運用在智能終端的模型訓練中,如各個語音助手例如 Siri、Alex 等等。

聯(lián)邦學習

在現(xiàn)有的聯(lián)邦學習模型并行中,模型被均勻分配給各個訓練設(shè)備。然而,如前文所述,由于聯(lián)邦學習的訓練設(shè)備往往是用戶的智能終端,性能差異較大,使用均勻分配,往往會造成通信時間瓶頸。

正如我們都知道木桶效應(yīng):木桶的盛水量由最短的那塊木板決定。而在傳統(tǒng)的聯(lián)邦學習中,存在類似現(xiàn)象:訓練速度由最慢的那個設(shè)備決定。

例如,對于處于使用模型并行的同一個聯(lián)邦學習任務(wù)中的智能手機和樹莓派,它們會被分配相同的任務(wù)量。但由于智能手機的運算能力遠超樹莓派,智能手機被迫閑置等待樹莓派的任務(wù)完成。

木桶效應(yīng)

Sky Computing

Sky Computing 針對以上痛點,通過負載均衡,將不同規(guī)模和能力的云服務(wù)器智能互聯(lián),達到大規(guī)模計算的算力需求,同時通過聯(lián)邦學習的方式,僅在云服務(wù)器內(nèi)部訪問用戶數(shù)據(jù),避免數(shù)據(jù)遷移和隱私泄露。

負載均衡

要解決負載均衡的問題,首先要了解什么是「負載」。在計算機中,無論進行哪種操作,究其本質(zhì),負載都可以理解為「完成任務(wù)所需的時間」。由于在聯(lián)邦學習中,訓練模型的計算總量是固定的,因此如果我們能通過自適應(yīng)的方式智能分配計算任務(wù),便能夠使得每個設(shè)備完成計算任務(wù)的耗時相同,確保整體訓練的時間最優(yōu)。而為了得到一個好的分配方式,我們需要首先得到模型和設(shè)備相關(guān)信息,然后再進行實際的適當分配操作。因此,對于訓練模型,我們需要分為兩個階段:基準測試和分配。

訓練過程

基準測試

在基準測試階段,Sky Computing 需要收集來自兩個維度的數(shù)據(jù):模型和設(shè)備。在模型維度,需要知道模型每一層所需的內(nèi)存占用和計算量。通過結(jié)合模型的預(yù)計內(nèi)存占用和設(shè)備的可用內(nèi)存,可避免內(nèi)存溢出;而所需計算量越大,同一設(shè)備完成該任務(wù)的時間就越久。在設(shè)備維度,需要知道設(shè)備的通訊延時、計算能力和可用內(nèi)存等,受網(wǎng)絡(luò)環(huán)境、當前運行負載等因素的影響。對于算力強、通信好但可用內(nèi)存少的設(shè)備,應(yīng)在內(nèi)存不溢出的前提下,盡量多分配模型層(計算任務(wù))。由于 Sky Computing 是一個負載均衡的聯(lián)邦學習系統(tǒng),因此我們在基準測試階段只關(guān)心設(shè)備的機器學習的能力。通過在每個設(shè)備運行小型的機器學習測試任務(wù),測探設(shè)備的 AI 計算能力。

整體流程

分配

在決定任務(wù)分配方式時,經(jīng)數(shù)學分析可知,分配方式本質(zhì)上是一個 NP-hard 的混合整數(shù)線性規(guī)劃問題。因此,在多項式時間內(nèi),我們無法得到一個最優(yōu)解。而隨著模型規(guī)模的不斷增長,和設(shè)備數(shù)量的不斷增多,計算最優(yōu)解的成本顯然是不可接受的。

因此,在實際情況中,我們不會直接計算求得最優(yōu)解,而是嘗試使用啟發(fā)式算法得到近似解。在 Sky Computing 中,我們設(shè)計了一個兩階段的啟發(fā)式算法:第一階段為預(yù)分配,按照設(shè)備的實際可用內(nèi)存大小進行模型的分配,并且計算每個設(shè)備實際的工作負載;第二階段為分配調(diào)整,根據(jù)設(shè)備的負載量進行動態(tài)的調(diào)整,迭代降低整個系統(tǒng)的負載量。同時,為了驗證 Sky Computing 的優(yōu)越性,我們在實驗中也設(shè)置了最優(yōu)分配作為對比。

實現(xiàn)架構(gòu)

性能表現(xiàn)

我們在集群環(huán)境中,采用控制關(guān)鍵因素變量的方式,以聯(lián)邦學習 AI 任務(wù)的 forward 和 backward 的時間為指標,對 Sky Computing 的性能進行了驗證。

實驗結(jié)果

我們測試了三種分配方式(even:均勻分配,heuristic:啟發(fā)式算法,optimal:最優(yōu)分配)。在不同的計算資源數(shù)量規(guī)模和不同的模型大小下的表現(xiàn),并記錄了每次完成迭代所花費的時間??梢钥吹?,隨著設(shè)備數(shù)量的增多和模型深度的增加,我們的啟發(fā)式算法的效果十分顯著。在 64 個節(jié)點 160 層隱藏層的實驗環(huán)境下,Sky Computing 比當前的均勻分配模型并行可加速 55%。

實驗結(jié)果

其中,由于最優(yōu)分配計算成本極高,在 64 節(jié)點時已難以計算,不適用于實際應(yīng)用,僅作為小規(guī)模時的參考值。

開源共建

Sky Computing 是我們利用空間異構(gòu)分布式計算特性加速聯(lián)邦學習的一次成功嘗試,獲得了高達 55% 的性能提升。目前該項目仍處于開發(fā)階段,未來我們將進行更加充分的實驗,早日部署到實際應(yīng)用中,并提供動態(tài)冗余等功能。

論文地址:https://arxiv.org/abs/2202.11836

項目地址:https://github.com/hpcaitech/SkyComputing


網(wǎng)頁名稱:提高55%異地算力利用率,現(xiàn)已開源!響應(yīng)‘東數(shù)西算’AI大基建
文章路徑:http://m.5511xx.com/article/djeegos.html