深度解析 PolarDB 數(shù)據(jù)庫并行查詢技術(shù)

作者：智鄰 2021-05-13 14:34:34

云計算隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大，用戶SQL的執(zhí)行時間越來越長，這不僅對數(shù)據(jù)庫的優(yōu)化能力提出更高的要求，并且對數(shù)據(jù)庫的執(zhí)行模式也提出了新的挑戰(zhàn)。本文主要介紹基于代價進(jìn)行并行優(yōu)化、并行執(zhí)行的云數(shù)據(jù)庫的并行查詢引擎的關(guān)鍵問題和核心技術(shù)。

創(chuàng)新互聯(lián)長期為上1000家客戶提供的網(wǎng)站建設(shè)服務(wù)，團(tuán)隊從業(yè)經(jīng)驗10年，關(guān)注不同地域、不同群體，并針對不同對象提供差異化的產(chǎn)品和服務(wù)；打造開放共贏平臺，與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為長豐企業(yè)提供專業(yè)的成都網(wǎng)站制作、網(wǎng)站設(shè)計，長豐網(wǎng)站改版等技術(shù)服務(wù)。擁有十年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。

[[399309]]

一、背景

隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大，用戶SQL的執(zhí)行時間越來越長，這不僅對數(shù)據(jù)庫的優(yōu)化能力提出更高的要求，并且對數(shù)據(jù)庫的執(zhí)行模式也提出了新的挑戰(zhàn)。隨著數(shù)據(jù)庫在云上的蓬勃發(fā)展，越來越多的傳統(tǒng)用戶遷移到云上，享受云上彈性擴(kuò)展的紅利，但是隨著業(yè)務(wù)的快速擴(kuò)張，卻發(fā)現(xiàn)即使動態(tài)增加了很多資源，但SQL的執(zhí)行時間還是越來越慢，并沒有隨著資源的投入達(dá)到預(yù)期的效果。顯而易見，雖然新增了很多資源，但這些資源并沒用被充分利用，很多傳統(tǒng)的商業(yè)數(shù)據(jù)庫，如Oracle、SQL Server等都提供對并行查詢引擎的支持，以充分利用系統(tǒng)資源，達(dá)到加速SQL執(zhí)行的效果。

本文主要介紹基于代價進(jìn)行并行優(yōu)化、并行執(zhí)行的云數(shù)據(jù)庫的并行查詢引擎的關(guān)鍵問題和核心技術(shù)。

二、如何將查詢并行起來

對于一個類OLAP的查詢，顯而易見的是它通常是對大批量數(shù)據(jù)的查詢，數(shù)據(jù)量大意味著數(shù)據(jù)遠(yuǎn)大于數(shù)據(jù)庫的內(nèi)存容量，大部分?jǐn)?shù)據(jù)可能無法緩存到數(shù)據(jù)庫的緩沖區(qū)中，而必須在查詢執(zhí)行時才動態(tài)加載到緩沖區(qū)中，這樣就會造成大量IO操作，而IO操作又是最耗時的，因此首先要考慮的就是如何能加速IO操作。

由于硬件的限制，每次IO的耗時基本是固定的，雖然還有順序IO和隨機(jī)IO的區(qū)別，但在SSD已經(jīng)盛行的今天，兩者的差異也在逐漸接近。那么還有沒有其它方式可以加速IO呢? 顯然并行IO是一個簡單易行的方法，如果多個線程可以同時發(fā)起IO，每個線程只讀取部分?jǐn)?shù)據(jù)，這樣就可以快速的將數(shù)據(jù)讀到數(shù)據(jù)庫的緩沖區(qū)中。

并行讀取數(shù)據(jù)的示意如上圖所示，每個worker代表一個線程，如果數(shù)據(jù)已經(jīng)有partition分區(qū)，可以每個線程讀取一個partition；也可以將全部數(shù)據(jù)按固定大小進(jìn)行分片，比如按一個數(shù)據(jù)頁面大小，然后每個線程以Round-robin模式輪詢讀取一個分片。

這里需要注意的是，按已有partition分配給不同worker可能會導(dǎo)致每個worker處理的數(shù)據(jù)不均勻，而按Round-robin模式進(jìn)行輪詢，如果分片設(shè)置的比較小，相對來說就比較容易做到每個worker處理的數(shù)據(jù)比較均勻。

如果只是將數(shù)據(jù)讀取到緩沖區(qū)中，而不是立即進(jìn)行后續(xù)處理，那么這些數(shù)據(jù)就會因緩沖區(qū)爆滿導(dǎo)致數(shù)據(jù)被換出，從而失去加速IO的意義。因此，在并行讀取數(shù)據(jù)的同時，必須同時并行的處理這些數(shù)據(jù)，這是并行查詢加速的基礎(chǔ)。

傳統(tǒng)的優(yōu)化器只能生成串行的執(zhí)行計劃，為了實現(xiàn)并行讀取數(shù)據(jù)，同時并行處理數(shù)據(jù)，首先必須對現(xiàn)有的優(yōu)化器進(jìn)行改造，讓優(yōu)化器可以生成我們需要的并行計劃。比如選擇哪個表或哪些表可以并行讀取，并且通過并行讀取會帶來足夠的收益；或者哪些操作可以并行執(zhí)行，并且可以帶來足夠的收益。

并不是說并行化改造一定會有收益，比如對一個數(shù)據(jù)量很小的表，可能只是幾行，如果也對它進(jìn)行并行讀取的話，并行執(zhí)行所需要的多線程構(gòu)建再加上線程間的數(shù)據(jù)同步等所需要的代價可能遠(yuǎn)大于所得到的收益，總體來說，并行執(zhí)行會需要更多的資源和時間，這就得不償失了。因此查詢計劃的并行化必須是基于代價的，否則可能會導(dǎo)致更嚴(yán)重的性能退化問題。

三、如何選擇并行掃描的表

選擇并行掃描的表是生成并行計劃的重要基礎(chǔ)，通過基于并行掃描代價的計算和比較，選擇可以并行掃描的表作為候選，是并行執(zhí)行計劃迭代的第一步?；谛碌牟⑿写鷥r，也許會有更優(yōu)的JOIN順序選擇，尤其是當(dāng)參與JOIN的表的數(shù)量比較多時，這需要更多額外的迭代空間，為防止優(yōu)化過程消耗太多的時間，保持原有計劃的JOIN順序是一個不錯的選擇。另外，對于參與JOIN的每張表，因為表的訪問方法不同，比如全表掃描、Ref索引掃描，Range索引掃描等，這些都會影響到最終并行掃描的代價。

通常我們選擇最大的那張表作為并行表，這樣并行掃描的收益最大，當(dāng)然也可以選擇多個表同時做并行掃描，后面會繼續(xù)討論更復(fù)雜的情況。

下面以查詢年度消費TOP 10的用戶為例：

SELECT c.c_name, sum(o.o_totalprice) as s FROM customer c, orders o WHERE c.c_custkey = o.o_custkey AND o_orderdate >= '1996-01-01' AND o_orderdate <= '1996-12-31' GROUP BY c.c_name ORDER BY s DESC LIMIT 10;

其中orders表為訂單表，數(shù)據(jù)很多，這類表也被稱之為事實表，customer表為客戶表，數(shù)據(jù)相對較少，這類表也被稱之為維度表。那么此SQL的并行執(zhí)行計劃如下圖所示：

從計劃中可以看出orders表會做并行掃描，由32個workers線程來執(zhí)行，每個worker只掃描orders表的一部分?jǐn)?shù)據(jù)分片，然后與customer表按o_custkey做index lookup進(jìn)行JOIN，JOIN的結(jié)果發(fā)送到一個collector組件，然后由collector組件繼續(xù)做后續(xù)的GROUP BY、ORDER BY及LIMIT操作。

四、選擇多表并行的JOIN

將一張表做并行掃描之后，就會想為什么只能選擇一張表？如果SQL中有2張或更多的FACT表，能不能可以將FACT表都做并行掃描呢？答案是當(dāng)然可以。以下面SQL為例：

SELECT o.o_custkey, sum(l.l_extendedprice) as s FROM orders o, lineitem l WHERE o.o_custkey = l.l_orderkey GROUP BY o.o_custkey ORDER BY s LIMIT 10;

其中orders表和lineitem表都是數(shù)據(jù)量很大的事實表，此SQL的并行執(zhí)行計劃如下圖所示：

從計劃中可以看到orders表和lineitem表都會做并行掃描，都由32個workers線程來執(zhí)行。那么多個表的并行是如何實現(xiàn)的呢？我們以2個表為例，當(dāng)2個表執(zhí)行JOIN時，通常的JOIN方式有Nested Loop JOIN、HASH JOIN等，對于不同的JOIN方式，為保證結(jié)果的正確性，必須選擇合理的表掃描方式。

以HASH JOIN為例，對于串行執(zhí)行的HASH JOIN來說，首先選擇一個表創(chuàng)建HASH表稱之為Build表，然后讀取另一個Probe表，計算HASH，并在Build表中進(jìn)行HASH匹配，若匹配成功，輸出結(jié)果，否則繼續(xù)讀取。如果改為并行HASH JOIN，并行優(yōu)化器會對串行執(zhí)行的HASH JOIN進(jìn)行并行化改造，使之成為并行HASH JOIN，并行化改造的方案可以有以下兩種解決方案。

方案一是將2個表都按HASH key進(jìn)行分區(qū)，相同HASH值的數(shù)據(jù)處于同一個分區(qū)內(nèi)，由同一個線程執(zhí)行HASH JOIN。方案二是創(chuàng)建一個共享的Build表，由所有執(zhí)行HASH JOIN的線程共享，然后每個線程并行讀取屬于自己線程的另外一個表的分片，再執(zhí)行HASH JOIN。最終選擇哪種方案，通過代價估算來決定。

圖2 并行HASH JOIN示意圖

對于方案一，需要讀取表中的所有數(shù)據(jù)，根據(jù)選中的HASH key，對數(shù)據(jù)進(jìn)行分區(qū)，并將數(shù)據(jù)發(fā)送到不同的處理線程中，這需要額外增加一個Repartition算子，負(fù)責(zé)根據(jù)分區(qū)規(guī)則將數(shù)據(jù)發(fā)送到不同的處理線程。對于方案二，需要并行創(chuàng)建共享的HASH build表，當(dāng)build表創(chuàng)建成功后，每個線程讀取Probe表的一個分片，分別執(zhí)行HASH JOIN，這里的分片并不需要按照HASH key進(jìn)行分片，每個線程分別讀取互不相交的分片即可。

五、分析統(tǒng)計的復(fù)雜算子的并行

對于一個分析統(tǒng)計的需求，GROUP BY操作是繞不開的操作，尤其對大量的JOIN結(jié)果再做GROUP BY操作，是整個SQL中最費時的一個過程，因此GROUP BY的并行也是并行查詢引擎必須優(yōu)先解決的問題。

以年度消費TOP10客戶的SQL為例，對GROUP BY并行化后的并行執(zhí)行計劃如下圖所示：

與之前的執(zhí)行計劃相比，新的執(zhí)行計劃中多了一個collector組件，總共有2個collector組件。首先我們看第二行的collector組件，它的extra信息中有2條"Using temporary; Using filesort"，這表示它是對從workers接收到的數(shù)據(jù)執(zhí)行GROUP BY，然后再按ORDER排序，因為只有第一個collector組件在用戶的session中，所以這個collector也是在worker中并行執(zhí)行，也就是說并行的做Group by和Order by以及Limit；然后看第一行的collector組件，它的extra信息中只有一條"Merge sort"，表示session線程對從workers接收到的數(shù)據(jù)執(zhí)行一次merge sort，然后將結(jié)果返回給用戶。這里可能就有人會提出疑問，為什么session線程只做merge sort就可以完成GROUP BY操作呢？另外LIMIT在哪里呢？

首先回答第2個問題，因為explain計劃顯示的問題，在常規(guī)模式下不顯示LIMIT操作，但在Tree模式下會顯示LIMIT操作。如下所示：

從Tree型計劃樹上可以清楚的看到LIMIT操作有2處，一處在計劃的頂端，也就是在session上，做完limit后將數(shù)據(jù)返回給用戶；另外一處在計劃樹的中間位置，它其實是在worker線程的執(zhí)行計劃上，在每個worker線程中在排序完成后也會做一次limit，這樣就可以極大減少worker返回給session線程的數(shù)據(jù)量，從而提升整體性能。

下面來回答第一個問題，為什么GROUP BY只需要在worker線程上執(zhí)行一次就可以保證結(jié)果的正確性。通常來說，每個worker只有所有數(shù)據(jù)的一個分片，只在一個數(shù)據(jù)分片上做GROUP BY是有極大的風(fēng)險得到錯誤的GROUP BY結(jié)果的，因為同一GROUP分組的數(shù)據(jù)可能不只是在本W(wǎng)ORKER的數(shù)據(jù)分片上，也可能在其它WORKER的數(shù)據(jù)分片中，被其它WORKER所持有。但是如果我們可以保證同一GROUP分組的數(shù)據(jù)一定位于同一個數(shù)據(jù)分片，并且這個數(shù)據(jù)分片只被一個WORKER線程所持有，那么就可以保證GROUP BY結(jié)果的正確性。通過Tree型執(zhí)行計劃可以看到，在并行JOIN之后，將JOIN的結(jié)果按GROUP分組的KEY值: c.c_name進(jìn)行Repartition操作，將相同分組的數(shù)據(jù)分發(fā)到相同的WORKER，從而保證每個WORKER擁有的數(shù)據(jù)分片互不交叉，保證GROUP BY結(jié)果的正確性。

因為每個WORKER的GROUP BY操作已經(jīng)是最終結(jié)果，所以還可以將ORDER BY和LIMIT也下推到WORKER來執(zhí)行，進(jìn)一步提升了并行執(zhí)行的效率。

六、并行查詢引擎對TPCH的線性加速

附圖是一個并行查詢引擎對TPCH的加速效果，TPC-H中100%的SQL可以被加速，70%的SQL加速比超過8倍，總和加速近13倍，Q6和Q12加速甚至超過32倍。

七、總結(jié)

數(shù)據(jù)庫是應(yīng)用系統(tǒng)的核心，而優(yōu)化器是數(shù)據(jù)庫的核心，優(yōu)化器的好壞幾乎可以決定一個數(shù)據(jù)庫產(chǎn)品的成敗。開發(fā)一個全新的優(yōu)化器，對任何團(tuán)隊都是一個巨大的挑戰(zhàn)，技術(shù)的復(fù)雜度暫且不提，就是想做到產(chǎn)品的足夠穩(wěn)定就是一個非常難以克服的困難。因此即使傳統(tǒng)商業(yè)數(shù)據(jù)庫，也是在現(xiàn)有優(yōu)化器的基礎(chǔ)上不斷改進(jìn)，逐漸增加對并行的支持，最終成為一個成熟的并行優(yōu)化器。對PolarDB也是如此，在設(shè)計和開發(fā)并行查詢引擎時，我們充分利用現(xiàn)有優(yōu)化器的技術(shù)積累和實現(xiàn)基礎(chǔ)，不斷改進(jìn)，不斷打磨，最終形成了一個持續(xù)迭代的技術(shù)方案，以保證新的優(yōu)化器的穩(wěn)定運行和技術(shù)革新。

當(dāng)前名稱：深度解析PolarDB數(shù)據(jù)庫并行查詢技術(shù)
當(dāng)前地址：http://m.5511xx.com/article/djjodop.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

深度解析 PolarDB 數(shù)據(jù)庫并行查詢技術(shù)

其他資訊