日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
來看一看PB級分布式存儲Ceph

來看一看PB級分布式存儲Ceph

作者:IBM 2018-03-08 11:10:33

存儲

存儲軟件

分布式 Ceph 文件系統(tǒng) — 或者至少是客戶端接口 — 在 Linux 內(nèi)核中實現(xiàn)。值得注意的是,在大多數(shù)文件系統(tǒng)中,所有的控制和智能在內(nèi)核的文件系統(tǒng)源本身中執(zhí)行。但是,在 Ceph 中,文件系統(tǒng)的智能分布在節(jié)點上,這簡化了客戶端接口,并為 Ceph 提供了大規(guī)模(甚至動態(tài))擴展能力。

專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計、網(wǎng)站制作、外貿(mào)營銷網(wǎng)站建設(shè)服務(wù),電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業(yè)瑞安免費做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了千余家企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實現(xiàn)規(guī)模擴充和轉(zhuǎn)變。

最近有朋友問關(guān)于區(qū)塊鏈用于存儲應(yīng)用的話題,其實一定要清楚存儲和存證的關(guān)系,簡而言之區(qū)塊鏈適合做存儲的存證,并不適合做分布式的存儲用,為了搞清楚這個問題,今天我們來看看一個分布式存儲的代表Ceph是什么樣子的,也就說明了區(qū)塊鏈技術(shù)是否適合于作為存儲出現(xiàn)。

Ceph是加州大學(xué)Santa Cruz分校的Sage Weil(DreamHost的聯(lián)合創(chuàng)始人)專為博士論文設(shè)計的新一代自由軟件分布式文件系統(tǒng)。自2007年畢業(yè)之后,Sage開始全職投入到Ceph開 發(fā)之中,使其能適用于生產(chǎn)環(huán)境。Ceph的主要目標是設(shè)計成基于POSIX的沒有單點故障的分布式文件系統(tǒng),使數(shù)據(jù)能容錯和無縫的復(fù)制。

Ceph設(shè)計目標

開發(fā)一個分布式文件系統(tǒng)需要多方努力,但是如果能準確地解決問題,它就是無價的。Ceph 的目標簡單地定義為:

  • 可輕松擴展到數(shù) PB 容量
  • 對多種工作負載的高性能(每秒輸入/輸出操作[IOPS]和帶寬)
  • 高可靠性

不幸的是,這些目標之間會互相競爭(例如,可擴展性會降低或者抑制性能或者影響可靠性)。Ceph 開發(fā)了一些非常有趣的概念(例如,動態(tài)元數(shù)據(jù)分區(qū),數(shù)據(jù)分布和復(fù)制),這些概念在本文中只進行簡短地探討。Ceph 的設(shè)計還包括保護單一點故障的容錯功能,它假設(shè)大規(guī)模(PB 級存儲)存儲故障是常見現(xiàn)象而不是例外情況。最后,它的設(shè)計并沒有假設(shè)某種特殊工作負載,但是包括適應(yīng)變化的工作負載,提供最佳性能的能力。它利用 POSIX 的兼容性完成所有這些任務(wù),允許它對當前依賴 POSIX 語義(通過以 Ceph 為目標的改進)的應(yīng)用進行透明的部署。最后,Ceph 是開源分布式存儲,也是主線 Linux 內(nèi)核(2.6.34)的一部分。

Ceph 架構(gòu)

現(xiàn)在,讓我們探討一下 Ceph 的架構(gòu)以及高端的核心要素。然后我會拓展到另一層次,說明 Ceph 中一些關(guān)鍵的方面,提供更詳細的探討。

Ceph 生態(tài)系統(tǒng)可以大致劃分為四部分(見圖 1):客戶端(數(shù)據(jù)用戶),元數(shù)據(jù)服務(wù)器(緩存和同步分布式元數(shù)據(jù)),一個對象存儲集群(將數(shù)據(jù)和元數(shù)據(jù)作為對象存儲,執(zhí)行其他關(guān)鍵職能),以及最后的集群監(jiān)視器(執(zhí)行監(jiān)視功能)。

圖 1. Ceph 生態(tài)系統(tǒng)的概念架構(gòu)

如圖 1 所示,客戶使用元數(shù)據(jù)服務(wù)器,執(zhí)行元數(shù)據(jù)操作(來確定數(shù)據(jù)位置)。元數(shù)據(jù)服務(wù)器管理數(shù)據(jù)位置,以及在何處存儲新數(shù)據(jù)。值得注意的是,元數(shù)據(jù)存儲在一個存儲集群(標為 “元數(shù)據(jù) I/O”)。實際的文件 I/O 發(fā)生在客戶和對象存儲集群之間。這樣一來,更高層次的 POSIX 功能(例如,打開、關(guān)閉、重命名)就由元數(shù)據(jù)服務(wù)器管理,不過 POSIX 功能(例如讀和寫)則直接由對象存儲集群管理。

另一個架構(gòu)視圖由圖 2 提供。一系列服務(wù)器通過一個客戶界面訪問 Ceph 生態(tài)系統(tǒng),這就明白了元數(shù)據(jù)服務(wù)器和對象級存儲器之間的關(guān)系。分布式存儲系統(tǒng)可以在一些層中查看,包括一個存儲設(shè)備的格式(Extent and B-tree-based Object File System [EBOFS] 或者一個備選),還有一個設(shè)計用于管理數(shù)據(jù)復(fù)制,故障檢測,恢復(fù),以及隨后的數(shù)據(jù)遷移的覆蓋管理層,叫做 Reliable Autonomic Distributed Object Storage(RADOS)。最后,監(jiān)視器用于識別組件故障,包括隨后的通知。

圖 2. Ceph 生態(tài)系統(tǒng)簡化后的分層視圖

Ceph 組件

了解了 Ceph 的概念架構(gòu)之后,您可以挖掘到另一個層次,了解在 Ceph 中實現(xiàn)的主要組件。Ceph 和傳統(tǒng)的文件系統(tǒng)之間的重要差異之一就是,它將智能都用在了生態(tài)環(huán)境而不是文件系統(tǒng)本身。

圖 3 顯示了一個簡單的 Ceph 生態(tài)系統(tǒng)。Ceph Client 是 Ceph 文件系統(tǒng)的用戶。Ceph Metadata Daemon 提供了元數(shù)據(jù)服務(wù)器,而 Ceph Object Storage Daemon 提供了實際存儲(對數(shù)據(jù)和元數(shù)據(jù)兩者)。最后,Ceph Monitor 提供了集群管理。要注意的是,Ceph 客戶,對象存儲端點,元數(shù)據(jù)服務(wù)器(根據(jù)文件系統(tǒng)的容量)可以有許多,而且至少有一對冗余的監(jiān)視器。那么,這個文件系統(tǒng)是如何分布的呢?

圖 3. 簡單的 Ceph 生態(tài)系統(tǒng)

Ceph 客戶端

因為 Linux 顯示文件系統(tǒng)的一個公共界面(通過虛擬文件系統(tǒng)交換機 [VFS]),Ceph 的用戶透視圖就是透明的。管理員的透視圖肯定是不同的,考慮到很多服務(wù)器會包含存儲系統(tǒng)這一潛在因素(要查看更多創(chuàng)建 Ceph 集群的信息,見 參考資料 部分)。從用戶的角度看,他們訪問大容量的存儲系統(tǒng),卻不知道下面聚合成一個大容量的存儲池的元數(shù)據(jù)服務(wù)器,監(jiān)視器,還有獨立的對象存儲設(shè)備。用戶只是簡單地看到一個安裝點,在這點上可以執(zhí)行標準文件 I/O。

Ceph 文件系統(tǒng) — 或者至少是客戶端接口 — 在 Linux 內(nèi)核中實現(xiàn)。值得注意的是,在大多數(shù)文件系統(tǒng)中,所有的控制和智能在內(nèi)核的文件系統(tǒng)源本身中執(zhí)行。但是,在 Ceph 中,文件系統(tǒng)的智能分布在節(jié)點上,這簡化了客戶端接口,并為 Ceph 提供了大規(guī)模(甚至動態(tài))擴展能力。

Ceph 使用一個有趣的備選,而不是依賴分配列表(將磁盤上的塊映射到指定文件的元數(shù)據(jù))。Linux 透視圖中的一個文件會分配到一個來自元數(shù)據(jù)服務(wù)器的 inode number(INO),對于文件這是一個唯一的標識符。然后文件被推入一些對象中(根據(jù)文件的大小)。使用 INO 和 object number(ONO),每個對象都分配到一個對象 ID(OID)。在 OID 上使用一個簡單的哈希,每個對象都被分配到一個放置組。放置組(標識為 PGID)是一個對象的概念容器。最后,放置組到對象存儲設(shè)備的映射是一個偽隨機映射,使用一個叫做 Controlled Replication Under Scalable Hashing(CRUSH)的算法。這樣一來,放置組(以及副本)到存儲設(shè)備的映射就不用依賴任何元數(shù)據(jù),而是依賴一個偽隨機的映射函數(shù)。這種操作是理想的,因為它把存儲的開銷最小化,簡化了分配和數(shù)據(jù)查詢。

分配的最后組件是集群映射。集群映射 是設(shè)備的有效表示,顯示了存儲集群。有了 PGID 和集群映射,您就可以定位任何對象。

Ceph 元數(shù)據(jù)服務(wù)器

元數(shù)據(jù)服務(wù)器(cmds)的工作就是管理文件系統(tǒng)的名稱空間。雖然元數(shù)據(jù)和數(shù)據(jù)兩者都存儲在對象存儲集群,但兩者分別管理,支持可擴展性。事實上,元數(shù)據(jù)在一個元數(shù)據(jù)服務(wù)器集群上被進一步拆分,元數(shù)據(jù)服務(wù)器能夠自適應(yīng)地復(fù)制和分配名稱空間,避免出現(xiàn)熱點。如圖 4 所示,元數(shù)據(jù)服務(wù)器管理名稱空間部分,可以(為冗余和性能)進行重疊。元數(shù)據(jù)服務(wù)器到名稱空間的映射在 Ceph 中使用動態(tài)子樹邏輯分區(qū)執(zhí)行,它允許 Ceph 對變化的工作負載進行調(diào)整(在元數(shù)據(jù)服務(wù)器之間遷移名稱空間)同時保留性能的位置。

圖 4. 元數(shù)據(jù)服務(wù)器的 Ceph 名稱空間的分區(qū)

但是因為每個元數(shù)據(jù)服務(wù)器只是簡單地管理客戶端人口的名稱空間,它的主要應(yīng)用就是一個智能元數(shù)據(jù)緩存(因為實際的元數(shù)據(jù)最終存儲在對象存儲集群中)。進行寫操作的元數(shù)據(jù)被緩存在一個短期的日志中,它最終還是被推入物理存儲器中。這個動作允許元數(shù)據(jù)服務(wù)器將最近的元數(shù)據(jù)回饋給客戶(這在元數(shù)據(jù)操作中很常見)。這個日志對故障恢復(fù)也很有用:如果元數(shù)據(jù)服務(wù)器發(fā)生故障,它的日志就會被重放,保證元數(shù)據(jù)安全存儲在磁盤上。

元數(shù)據(jù)服務(wù)器管理 inode 空間,將文件名轉(zhuǎn)變?yōu)樵獢?shù)據(jù)。元數(shù)據(jù)服務(wù)器將文件名轉(zhuǎn)變?yōu)樗饕?jié)點,文件大小,和 Ceph 客戶端用于文件 I/O 的分段數(shù)據(jù)。

Ceph 監(jiān)視器

Ceph 包含實施集群映射管理的監(jiān)視器,但是故障管理的一些要素是在對象存儲本身中執(zhí)行的。當對象存儲設(shè)備發(fā)生故障或者新設(shè)備添加時,監(jiān)視器就檢測和維護一個有效的集群映射。這個功能按一種分布的方式執(zhí)行,這種方式中映射升級可以和當前的流量通信。Ceph 使用 Paxos,它是一系列分布式共識算法。

Ceph 對象存儲

和傳統(tǒng)的對象存儲類似,Ceph 存儲節(jié)點不僅包括存儲,還包括智能。傳統(tǒng)的驅(qū)動是只響應(yīng)來自啟動者的命令的簡單目標。但是對象存儲設(shè)備是智能設(shè)備,它能作為目標和啟動者,支持與其他對象存儲設(shè)備的通信和合作。

從存儲角度來看,Ceph 對象存儲設(shè)備執(zhí)行從對象到塊的映射(在客戶端的文件系統(tǒng)層中常常執(zhí)行的任務(wù))。這個動作允許本地實體以最佳方式?jīng)Q定怎樣存儲一個對象。Ceph 的早期版本在一個名為 EBOFS 的本地存儲器上實現(xiàn)一個自定義低級文件系統(tǒng)。這個系統(tǒng)實現(xiàn)一個到底層存儲的非標準接口,這個底層存儲已針對對象語義和其他特性(例如對磁盤提交的異步通知)調(diào)優(yōu)。今天,B-tree 文件系統(tǒng)(BTRFS)可以被用于存儲節(jié)點,它已經(jīng)實現(xiàn)了部分必要功能(例如嵌入式完整性)。

因為 Ceph 客戶實現(xiàn) CRUSH,而且對磁盤上的文件映射塊一無所知,下面的存儲設(shè)備就能安全地管理對象到塊的映射。這允許存儲節(jié)點復(fù)制數(shù)據(jù)(當發(fā)現(xiàn)一個設(shè)備出現(xiàn)故障時)。分配故障恢復(fù)也允許存儲系統(tǒng)擴展,因為故障檢測和恢復(fù)跨生態(tài)系統(tǒng)分配。Ceph 稱其為 RADOS(見 圖 3)。

其他分布式文件系統(tǒng)

Ceph 在分布式文件系統(tǒng)空間中并不是唯一的,但它在管理大容量存儲生態(tài)環(huán)境的方法上是獨一無二的。分布式文件系統(tǒng)的其他例子包括 Google File System(GFS),General Parallel File System(GPFS),還有 Lustre,這只提到了一部分。Ceph 背后的想法為分布式文件系統(tǒng)提供了一個有趣的未來,因為海量級別存儲導(dǎo)致了海量存儲問題的唯一挑戰(zhàn)。


文章名稱:來看一看PB級分布式存儲Ceph
URL網(wǎng)址:http://m.5511xx.com/article/djcchio.html