新聞中心
傳統(tǒng)大數(shù)據(jù)的三種架構(gòu)?

傳統(tǒng)大數(shù)據(jù)存儲(chǔ)系統(tǒng)通常有以下三種架構(gòu):
1. 單機(jī)存儲(chǔ)架構(gòu):這種架構(gòu)使用單個(gè)服務(wù)器來存儲(chǔ)和處理大數(shù)據(jù)。它通常包括一個(gè)主服務(wù)器和多個(gè)從服務(wù)器,主服務(wù)器負(fù)責(zé)數(shù)據(jù)的輸入、處理和管理,而從服務(wù)器用于存儲(chǔ)數(shù)據(jù)和執(zhí)行計(jì)算任務(wù)。單機(jī)存儲(chǔ)架構(gòu)適用于小規(guī)模的數(shù)據(jù)存儲(chǔ)和處理需求,但在面對大規(guī)模數(shù)據(jù)和高并發(fā)訪問時(shí)可能存在性能瓶頸。
2. 分布式存儲(chǔ)架構(gòu):這種架構(gòu)將數(shù)據(jù)分布在多個(gè)服務(wù)器上,以實(shí)現(xiàn)數(shù)據(jù)的分片存儲(chǔ)和并行處理。每個(gè)服務(wù)器都負(fù)責(zé)存儲(chǔ)和處理一部分?jǐn)?shù)據(jù),通過分布式文件系統(tǒng)或分布式數(shù)據(jù)庫管理數(shù)據(jù)的分布和訪問。分布式存儲(chǔ)架構(gòu)可以提供更高的數(shù)據(jù)處理能力和可擴(kuò)展性,適用于大規(guī)模的數(shù)據(jù)存儲(chǔ)和處理需求。
3. 多層存儲(chǔ)架構(gòu):這種架構(gòu)將數(shù)據(jù)分為多個(gè)層級(jí),并根據(jù)數(shù)據(jù)的訪問頻率和重要性將其存儲(chǔ)在不同的介質(zhì)上。通常包括快速存儲(chǔ)層(如內(nèi)存或固態(tài)硬盤)用于存儲(chǔ)熱數(shù)據(jù),以及較慢的存儲(chǔ)層(如磁盤)用于存儲(chǔ)冷數(shù)據(jù)。多層存儲(chǔ)架構(gòu)可以在滿足性能需求的同時(shí)節(jié)省存儲(chǔ)成本,提高數(shù)據(jù)的訪問效率。
這些傳統(tǒng)大數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)各有優(yōu)缺點(diǎn),選擇適合的架構(gòu)取決于具體的數(shù)據(jù)存儲(chǔ)和處理需求,以及預(yù)算和性能要求。近年來,隨著云計(jì)算和分布
關(guān)于這個(gè)問題,傳統(tǒng)大數(shù)據(jù)的三種架構(gòu)分別是:
1. 批處理架構(gòu)(Batch Processing Architecture):批處理架構(gòu)是最常見的大數(shù)據(jù)架構(gòu)之一,它通過將大量數(shù)據(jù)一次性加載到內(nèi)存中進(jìn)行處理和分析。這種架構(gòu)適用于對數(shù)據(jù)進(jìn)行離線分析,處理時(shí)間可以比較長,但可以處理大規(guī)模的數(shù)據(jù)集。典型的批處理架構(gòu)包括Hadoop MapReduce和Apache Spark。
2. 流處理架構(gòu)(Stream Processing Architecture):流處理架構(gòu)是一種實(shí)時(shí)處理大數(shù)據(jù)的架構(gòu),它可以對數(shù)據(jù)進(jìn)行連續(xù)的實(shí)時(shí)處理和分析。與批處理不同,流處理可以在數(shù)據(jù)到達(dá)時(shí)立即進(jìn)行處理,適用于需要實(shí)時(shí)響應(yīng)和即時(shí)決策的應(yīng)用場景。常見的流處理架構(gòu)包括Apache Flink和Apache Kafka Streams。
3. 交互式查詢架構(gòu)(Interactive Querying Architecture):交互式查詢架構(gòu)是一種用于快速查詢和分析大規(guī)模數(shù)據(jù)集的架構(gòu)。它通常使用分布式數(shù)據(jù)庫或數(shù)據(jù)倉庫來存儲(chǔ)和管理數(shù)據(jù),并提供快速的查詢和分析功能。交互式查詢架構(gòu)適用于需要快速查詢和分析數(shù)據(jù)的應(yīng)用場景,如數(shù)據(jù)探索、數(shù)據(jù)可視化和業(yè)務(wù)智能。常見的交互式查詢架構(gòu)包括Apache Hive和Apache Impala。如何做到兩臺(tái)服務(wù)器之間的數(shù)據(jù)備份?
這個(gè)要根據(jù)不同情況具體分析,有幾種方案參考:
數(shù)據(jù)庫A和數(shù)據(jù)庫B是建立在兩臺(tái)獨(dú)立的數(shù)據(jù)庫服務(wù)器上,那么采用dblink方式是一種可行的方式,存在兩個(gè)數(shù)據(jù)同步過程:
一、數(shù)據(jù)庫A正常運(yùn)行的時(shí)候需要將數(shù)據(jù)同步到備用庫即數(shù)據(jù)庫B;
二、數(shù)據(jù)庫A不正常的時(shí)候啟用數(shù)據(jù)庫B,在數(shù)據(jù)庫A恢復(fù)正常之前的數(shù)據(jù)更新都發(fā)生在數(shù)據(jù)庫B,那么需要將數(shù)據(jù)庫B的數(shù)據(jù)同步給數(shù)據(jù)庫A。
第一種方式:前提是數(shù)據(jù)庫A和數(shù)據(jù)庫B本地網(wǎng)是24小時(shí)互通的同時(shí)對數(shù)據(jù)同步實(shí)時(shí)性有比較高的要求,那么可以建立DBLINK,在兩個(gè)庫都建觸發(fā)器,不管當(dāng)前在哪個(gè)庫發(fā)生數(shù)據(jù)更新的時(shí)候?qū)崟r(shí)同步數(shù)據(jù)到目標(biāo)數(shù)據(jù)庫;
第二種方式:如果數(shù)據(jù)同步的實(shí)時(shí)性要求不高,則可以通過定制存儲(chǔ)過程的方式(給兩個(gè)庫的數(shù)據(jù)表加時(shí)間戳或者更新標(biāo)志,)定時(shí)同步數(shù)據(jù);
第三種方式:通過給兩個(gè)數(shù)據(jù)庫的數(shù)據(jù)表加更新標(biāo)志字段,以第一種方式為主以滿足實(shí)時(shí)性的要求,以第二種方式為輔彌補(bǔ)可能存在的觸發(fā)器執(zhí)行更新未成功的情況。
以上的方案都是從數(shù)據(jù)層面所做的處理,對于數(shù)據(jù)實(shí)時(shí)同步還是會(huì)存在一定的風(fēng)險(xiǎn),那么雙機(jī)熱備應(yīng)該說是最好的選擇了。
網(wǎng)站題目:傳統(tǒng)大數(shù)據(jù)的三種架構(gòu)?數(shù)據(jù)服務(wù)器種類
文章轉(zhuǎn)載:http://m.5511xx.com/article/dpgoces.html


咨詢
建站咨詢
