新聞中心
Redis 常用數(shù)據(jù)類型

為茫崖等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù),及茫崖網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè)、茫崖網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
Redis 最為常用的數(shù)據(jù)類型主要有以下五種:
- String
- Hash
- List
- Set
- Sorted set
在具體描述這幾種數(shù)據(jù)類型之前,我們先通過一張圖了解下 Redis 內(nèi)部內(nèi)存管理中是如何描述這些不同數(shù)據(jù)類型的:
首先 Redis 內(nèi)部使用一個(gè) redisObject 對象來表示所有的 key 和 value,redisObject 最主要的信息如上圖所示。type 代表一個(gè) value 對象具體是何種數(shù)據(jù)類型,encoding是不同數(shù)據(jù)類型在Redis內(nèi)部的存儲方式,比如:type=string 代表 value 存儲的是一個(gè)普通字符串,那么對應(yīng)的 encoding 可以是 raw 或者是 int,如果是 int 則代表實(shí)際 Redis 內(nèi)部是按數(shù)值型類存儲和表示這個(gè)字符串的,當(dāng)然前提是這個(gè)字符串本身可以用數(shù)值表示,比如:"123" "456"這樣的字符串。
這里需要特殊說明一下 vm 字段,只有打開了 Redis 的虛擬內(nèi)存功能,此字段才會真正的分配內(nèi)存,該功能默認(rèn)是關(guān)閉狀態(tài)的,該功能會在后面具體描述。
通過上圖我們可以發(fā)現(xiàn) ,Redis 使用 redisObject 來表示所有的 key/value 數(shù)據(jù)是比較浪費(fèi)內(nèi)存的,當(dāng)然這些內(nèi)存管理成本的付出主要也是為了給 Redis 不同數(shù)據(jù)類型提供一個(gè)統(tǒng)一的管理接口,實(shí)際作者也提供了多種方法幫助我們盡量節(jié)省內(nèi)存使用,隨后會具體討論。
下面我們先逐一分析這五種數(shù)據(jù)類型的使用和內(nèi)部實(shí)現(xiàn)方式:
String
常用命令:
Set、get、decr、incr、mget 等。
應(yīng)用場景:
String 是最常用的一種數(shù)據(jù)類型,普通的 key/value 存儲都可以歸為此類,這里就不所做解釋了。
實(shí)現(xiàn)方式:
String 在 Redis 內(nèi)部存儲默認(rèn)就是一個(gè)字符串,被 redisObject 所引用,當(dāng)遇到 incr、decr 等操作時(shí)會轉(zhuǎn)成數(shù)值型進(jìn)行計(jì)算,此時(shí) redisObject 的 encoding 字段為int。
Hash
常用命令:
Hget、hset、hgetall 等。
應(yīng)用場景:
我們簡單舉個(gè)實(shí)例來描述下 Hash 的應(yīng)用場景,比如我們要存儲一個(gè)用戶信息對象數(shù)據(jù),包含以下信息:
用戶 ID 為查找的 key,存儲的 value 用戶對象包含姓名,年齡,生日等信息,如果用普通的 key/value 結(jié)構(gòu)來存儲,主要有以下2種存儲方式:
***種方式將用戶 ID 作為查找 key,把其它信息封裝成一個(gè)對象以序列化的方式存儲,這種方式的缺點(diǎn)是,增加了序列化/反序列化的開銷,并且在需要修改其中一項(xiàng)信息時(shí),需要把整個(gè)對象取回,并且修改操作需要對并發(fā)進(jìn)行保護(hù),引入CAS等復(fù)雜問題。
第二種方法是這個(gè)用戶信息對象有多少成員就存成多少個(gè) key-value 對兒,用用戶 ID +對應(yīng)屬性的名稱作為唯一標(biāo)識來取得對應(yīng)屬性的值,雖然省去了序列化開銷和并發(fā)問題,但是用戶 ID 為重復(fù)存儲,如果存在大量這樣的數(shù)據(jù),內(nèi)存浪費(fèi)還是非??捎^的。
那么 Redis 提供的 Hash 很好地解決了這個(gè)問題,Redis 的 Hash 實(shí)際是內(nèi)部存儲的 Value 為一個(gè) HashMap,并提供了直接存取這個(gè) Map 成員的接口,如下圖:
也就是說,Key 仍然是用戶 ID,value 是一個(gè) Map,這個(gè) Map 的 key 是成員的屬性名,value 是屬性值,這樣對數(shù)據(jù)的修改和存取都可以直接通過其內(nèi)部 Map 的 Key(Redis 里稱內(nèi)部 Map 的 key 為 field),也就是通過 key(用戶 ID) + field(屬性標(biāo)簽)就可以操作對應(yīng)屬性數(shù)據(jù)了,既不需要重復(fù)存儲數(shù)據(jù),也不會帶來序列化和并發(fā)修改控制的問題,很好地解決了問題。
這里同時(shí)需要注意,Redis 提供了接口(hgetall)可以直接取到全部的屬性數(shù)據(jù),但是如果內(nèi)部 Map 的成員很多,那么涉及到遍歷整個(gè)內(nèi)部 Map 的操作,由于 Redis 單線程模型的緣故,這個(gè)遍歷操作可能會比較耗時(shí),而另其它客戶端的請求完全不響應(yīng),這點(diǎn)需要格外注意。
實(shí)現(xiàn)方式:
上面已經(jīng)說到 Redis Hash 對應(yīng) Value 內(nèi)部實(shí)際就是一個(gè) HashMap,實(shí)際這里會有2種不同實(shí)現(xiàn),這個(gè) Hash 的成員比較少時(shí) Redis 為了節(jié)省內(nèi)存會采用類似一維數(shù)組的方式來緊湊存儲,而不會采用真正的 HashMap 結(jié)構(gòu),對應(yīng)的 value redisObject 的 encoding 為 zipmap,當(dāng)成員數(shù)量增大時(shí)會自動(dòng)轉(zhuǎn)成真正的 HashMap,此時(shí) encoding 為 ht。
List
常用命令:
Lpush、rpush、lpop、rpop、lrange等。
應(yīng)用場景:
Redis list 的應(yīng)用場景非常多,也是 Redis 最重要的數(shù)據(jù)結(jié)構(gòu)之一,比如 twitter 的關(guān)注列表,粉絲列表等都可以用 Redis 的 list 結(jié)構(gòu)來實(shí)現(xiàn),比較好理解,這里不再重復(fù)。
實(shí)現(xiàn)方式:
Redis list 的實(shí)現(xiàn)為一個(gè)雙向鏈表,即可以支持反向查找和遍歷,更方便操作,不過帶來了部分額外的內(nèi)存開銷,Redis 內(nèi)部的很多實(shí)現(xiàn),包括發(fā)送緩沖隊(duì)列等也都是用的這個(gè)數(shù)據(jù)結(jié)構(gòu)。
Set
常用命令:
Sadd、spop、smembers、sunion 等。
應(yīng)用場景:
Redis set 對外提供的功能與 list 類似是一個(gè)列表的功能,特殊之處在于 set 是可以自動(dòng)排重的,當(dāng)你需要存儲一個(gè)列表數(shù)據(jù),又不希望出現(xiàn)重復(fù)數(shù)據(jù)時(shí),set 是一個(gè)很好的選擇,并且 set 提供了判斷某個(gè)成員是否在一個(gè) set 集合內(nèi)的重要接口,這個(gè)也是 list 所不能提供的。
實(shí)現(xiàn)方式:
set 的內(nèi)部實(shí)現(xiàn)是一個(gè) value 永遠(yuǎn)為 null 的 HashMap,實(shí)際就是通過計(jì)算 hash 的方式來快速排重的,這也是 set 能提供判斷一個(gè)成員是否在集合內(nèi)的原因。
Sorted set
常用命令:
zadd、zrange、zrem、zcard等。
使用場景:
Redis sorted set的使用場景與 set 類似,區(qū)別是set不是自動(dòng)有序的,而 sorted set 可以通過用戶額外提供一個(gè)優(yōu)先級(score)的參數(shù)來為成員排序,并且是插入有序的,即自動(dòng)排序。當(dāng)你需要一個(gè)有序的并且不重復(fù)的集合列表,那么可以選擇 sorted set 數(shù)據(jù)結(jié)構(gòu),比如 twitter 的 public timeline 可以以發(fā)表時(shí)間作為 score 來存儲,這樣獲取時(shí)就是自動(dòng)按時(shí)間排好序的。
實(shí)現(xiàn)方式:
Redis sorted set 的內(nèi)部使用 HashMap 和跳躍表(SkipList)來保證數(shù)據(jù)的存儲和有序,HashMap 里放的是成員到 score 的映射,而跳躍表里存放的是所有的成員,排序依據(jù)是 HashMap 里存的 score,使用跳躍表的結(jié)構(gòu)可以獲得比較高的查找效率,并且在實(shí)現(xiàn)上比較簡單。
常用內(nèi)存優(yōu)化手段與參數(shù)
通過我們上面的一些實(shí)現(xiàn)上的分析可以看出 Redis 實(shí)際上的內(nèi)存管理成本非常高,即占用了過多的內(nèi)存,作者對這點(diǎn)也非常清楚,所以提供了一系列的參數(shù)和手段來控制和節(jié)省內(nèi)存,我們分別來討論下。
首先最重要的一點(diǎn)是不要開啟 Redis 的 VM 選項(xiàng),即虛擬內(nèi)存功能,這個(gè)本來是作為 Redis 存儲超出物理內(nèi)存數(shù)據(jù)的一種數(shù)據(jù)在內(nèi)存與磁盤換入換出的一個(gè)持久化策略,但是其內(nèi)存管理成本也非常的高,并且我們后續(xù)會分析此種持久化策略并不成熟,所以要關(guān)閉 VM 功能,請檢查你的 redis.conf 文件中 vm-enabled 為 no。
其次***設(shè)置下 redis.conf 中的 maxmemory 選項(xiàng),該選項(xiàng)是告訴 Redis 當(dāng)使用了多少物理內(nèi)存后就開始拒***續(xù)的寫入請求,該參數(shù)能很好地保護(hù)好你的 Redis 不會因?yàn)槭褂昧诉^多的物理內(nèi)存而導(dǎo)致 swap,最終嚴(yán)重影響性能甚至崩潰。
另外 Redis 為不同數(shù)據(jù)類型分別提供了一組參數(shù)來控制內(nèi)存使用,我們在前面詳細(xì)分析過 Redis Hash 是 value 內(nèi)部為一個(gè) HashMap,如果該 Map 的成員數(shù)比較少,則會采用類似一維線性的緊湊格式來存儲該 Map,即省去了大量指針的內(nèi)存開銷,這個(gè)參數(shù)控制對應(yīng)在 redis.conf 配置文件中下面2項(xiàng):
- hash-max-zipmap-entries 64
- hash-max-zipmap-value 512
- hash-max-zipmap-entries
含義是當(dāng) value 這個(gè) Map 內(nèi)部不超過多少個(gè)成員時(shí)會采用線性緊湊格式存儲,默認(rèn)是64,即 value 內(nèi)部有64個(gè)以下的成員就是使用線性緊湊存儲,超過該值自動(dòng)轉(zhuǎn)成真正的 HashMap。
hash-max-zipmap-value 含義是當(dāng) value 這個(gè) Map 內(nèi)部的每個(gè)成員值長度不超過多少字節(jié)就會采用線性緊湊存儲來節(jié)省空間。
以上2個(gè)條件任意一個(gè)條件超過設(shè)置值都會轉(zhuǎn)換成真正的 HashMap,也就不會再節(jié)省內(nèi)存了,那么這個(gè)值是不是設(shè)置的越大越好呢,答案當(dāng)然是否定的,HashMap 的優(yōu)勢就是查找和操作的時(shí)間復(fù)雜度都是 O(1) 的,而放棄 Hash 采用一維存儲則是 O(n) 的時(shí)間復(fù)雜度,如果成員數(shù)量很少,則影響不大,否則會嚴(yán)重影響性能,所以要權(quán)衡好這個(gè)值的設(shè)置,總體上還是最根本的時(shí)間成本和空間成本上的權(quán)衡。
同樣類似的參數(shù)還有:
- list-max-ziplist-entries 512
說明:list 數(shù)據(jù)類型多少節(jié)點(diǎn)以下會采用去指針的緊湊存儲格式。
- list-max-ziplist-value 64
說明:list 數(shù)據(jù)類型節(jié)點(diǎn)值大小小于多少字節(jié)會采用緊湊存儲格式。
- set-max-intset-entries 512
注:set 數(shù)據(jù)類型內(nèi)部數(shù)據(jù)如果全部是數(shù)值型,且包含多少節(jié)點(diǎn)以下會采用緊湊格式存儲。
***想說的是Redis內(nèi)部實(shí)現(xiàn)沒有對內(nèi)存分配方面做過多的優(yōu)化,在一定程度上會存在內(nèi)存碎片,不過大多數(shù)情況下這個(gè)不會成為Redis的性能瓶 頸,不過如果在Redis內(nèi)部存儲的大部分?jǐn)?shù)據(jù)是數(shù)值型的話,Redis內(nèi)部采用了一個(gè) shared integer 的方式來省去分配內(nèi)存的開銷,即在系統(tǒng)啟動(dòng)時(shí)先分配一個(gè)從 1~n,那么多個(gè)數(shù)值對象放在一個(gè)池子中,如果存儲的數(shù)據(jù)恰好是這個(gè)數(shù)值范圍內(nèi)的數(shù)據(jù),則直接從池子里取出該對象,并且通過引用計(jì)數(shù)的方式來共享,這樣在系統(tǒng)存儲了大量數(shù)值下,也能一定程度上節(jié)省內(nèi)存并且提高性能,這個(gè)參數(shù)值 n 的設(shè)置需要修改源代碼中的一行宏定義 REDIS_SHARED_INTEGERS,該值 默認(rèn)是 10000,可以根據(jù)自己的需要進(jìn)行修改,修改后重新編譯就可以了。
Redis 的持久化機(jī)制
Redis 由于支持非常豐富的內(nèi)存數(shù)據(jù)結(jié)構(gòu)類型,如何把這些復(fù)雜的內(nèi)存組織方式持久化到磁盤上是一個(gè)難題,所以 Redis 的持久化方式與傳統(tǒng)數(shù)據(jù)庫的方式有比較多的差別,Redis 一共支持四種持久化方式,分別是:
- 定時(shí)快照方式(snapshot)
- 基于語句追加文件的方式(aof)
- 虛擬內(nèi)存(vm)
- Diskstore 方式
在設(shè)計(jì)思路上,前兩種是基于全部數(shù)據(jù)都在內(nèi)存中,即小數(shù)據(jù)量下提供磁盤落地功能,而后兩種方式則是作者在嘗試存儲數(shù)據(jù)超過物理內(nèi)存時(shí),即大數(shù)據(jù)量的數(shù)據(jù)存儲,截止到本文,后兩種持久化方式仍然是在實(shí)驗(yàn)階段,并且 vm 方式基本已經(jīng)被作者放棄,所以實(shí)際能在生產(chǎn)環(huán)境用的只有前兩種,換句話說 Redis 目前還只能作為小數(shù)據(jù)量存儲(全部數(shù)據(jù)能夠加載在內(nèi)存中),海量數(shù)據(jù)存儲方面并不是 Redis 所擅長的領(lǐng)域。下面分別介紹下這幾種持久化方式:
定時(shí)快照方式(snapshot):
該持久化方式實(shí)際是在 Redis 內(nèi)部一個(gè)定時(shí)器事件,每隔固定時(shí)間去檢查當(dāng)前數(shù)據(jù)發(fā)生的改變次數(shù)與時(shí)間是否滿足配置的持久化觸發(fā)的條件,如果滿足則通過操作系統(tǒng) fork 調(diào)用來創(chuàng)建出一個(gè)子進(jìn)程,這個(gè)子進(jìn)程默認(rèn)會與父進(jìn)程共享相同的地址空間,這時(shí)就可以通過子進(jìn)程來遍歷整個(gè)內(nèi)存來進(jìn)行存儲操作,而主進(jìn)程則仍然可以提供服務(wù),當(dāng)有寫入時(shí)由操作系統(tǒng)按照內(nèi)存頁(page)為單位來進(jìn)行 copy-on-write 保證父子進(jìn)程之間不會互相影響。
該持久化的主要缺點(diǎn)是定時(shí)快照只是代表一段時(shí)間內(nèi)的內(nèi)存映像,所以系統(tǒng)重啟會丟失上次快照與重啟之間所有的數(shù)據(jù)。
基于語句追加方式(aof):
aof 方式實(shí)際類似MySQL基于語句的 binlog 方式,即每條會使 Redis 內(nèi)存數(shù)據(jù)發(fā)生改變的命令都會追加到一個(gè) log 文件中,也就是說這個(gè) log 文件就是 Redis 的持久化數(shù)據(jù)。
aof 的方式的主要缺點(diǎn)是追加 log 文件可能導(dǎo)致體積過大,當(dāng)系統(tǒng)重啟恢復(fù)數(shù)據(jù)時(shí)如果是 aof 的方式則加載數(shù)據(jù)會非常慢,幾十G的數(shù)據(jù)可能需要幾小時(shí)才能加載完,當(dāng)然這個(gè)耗時(shí)并不是因?yàn)榇疟P文件讀取速度慢,而是由于讀取的所有命令都要在內(nèi)存中執(zhí)行一遍。另外由于每條命令都要寫 log,所以使用 aof 的方式,Redis 的讀寫性能也會有所下降。
虛擬內(nèi)存方式:
虛擬內(nèi)存方式是 Redis 來進(jìn)行用戶空間的數(shù)據(jù)換入換出的一個(gè)策略,此種方式在實(shí)現(xiàn)的效果上比較差,主要問題是代碼復(fù)雜、重啟慢、復(fù)制慢等等,目前已經(jīng)被作者放棄。
diskstore 方式:
diskstore 方式是作者放棄了虛擬內(nèi)存方式后選擇的一種新的實(shí)現(xiàn)方式,也就是傳統(tǒng)的 B-tree 的方式,目前仍在實(shí)驗(yàn)階段,后續(xù)是否可用我們可以拭目以待。
Redis持久化磁盤IO方式及其帶來的問題
有 Redis 線上運(yùn)維經(jīng)驗(yàn)的人會發(fā)現(xiàn) Redis 在物理內(nèi)存使用比較多,但還沒有超過實(shí)際物理內(nèi)存總?cè)萘繒r(shí)就會發(fā)生不穩(wěn)定甚至崩潰的問題,有人認(rèn)為是基于快照方式持久化的 fork 系統(tǒng)調(diào)用造成內(nèi)存占用加倍而導(dǎo)致的,這種觀點(diǎn)是不準(zhǔn)確的,因?yàn)?fork 調(diào)用的 copy-on-write 機(jī)制是基于操作系統(tǒng)頁這個(gè)單位的,也就是只有有寫入的臟頁會被復(fù)制,但是一般你的系統(tǒng)不會在短時(shí)間內(nèi)所有的頁都發(fā)生了寫入而導(dǎo)致復(fù)制,那是什么原因?qū)е?Redis 崩潰呢?
答案是 Redis 的持久化使用了 Buffer IO 造成的,所謂 Buffer IO 是指 Redis 對持久化文件的寫入和讀取操作都會使用物理內(nèi)存的 Page Cache,而大多數(shù)數(shù)據(jù)庫系統(tǒng)會使用 Direct IO 來繞過這層 Page Cache 并自行維護(hù)一個(gè)數(shù)據(jù)的 Cache,而當(dāng) Redis 的持久化文件過大(尤其是快照文件),并對其進(jìn)行讀寫時(shí),磁盤文件中的數(shù)據(jù)都會被加載到物理內(nèi) 存中作為操作系統(tǒng)對該文件的一層 Cache,而這層 Cache 的數(shù)據(jù)與 Redis 內(nèi)存中管理的數(shù)據(jù)實(shí)際是重復(fù)存儲的,雖然內(nèi)核在物理內(nèi)存緊張時(shí)會做 Page Cache 的剔除工作,但內(nèi)核很可能認(rèn)為某塊 Page Cache 更重要,而讓你的進(jìn)程開始 Swap,這時(shí)你的系統(tǒng)就會開始出現(xiàn)不穩(wěn)定或者崩潰了。我們的經(jīng)驗(yàn)是當(dāng)你的 Redis 物理內(nèi)存使用超過內(nèi)存總?cè)萘康?/5時(shí)就會開始比較危險(xiǎn)了。
下圖是 Redis 在讀取或者寫入快照文件 dump.rdb 后的內(nèi)存數(shù)據(jù)圖:
總結(jié)
根據(jù)業(yè)務(wù)需要選擇合適的數(shù)據(jù)類型,并為不同的應(yīng)用場景設(shè)置相應(yīng)的緊湊存儲參數(shù)。
當(dāng)業(yè)務(wù)場景不需要數(shù)據(jù)持久化時(shí),關(guān)閉所有的持久化方式可以獲得***的性能以及***的內(nèi)存使用量。
如果需要使用持久化,根據(jù)是否可以容忍重啟丟失部分?jǐn)?shù)據(jù)在快照方式與語句追加方式之間選擇其一,不要使用虛擬內(nèi)存以及 diskstore 方式。
不要讓你的 Redis 所在機(jī)器物理內(nèi)存使用超過實(shí)際內(nèi)存總量的3/5。
當(dāng)前標(biāo)題:直擊Redis持久化磁盤IO痛點(diǎn),讓存儲不再有負(fù)擔(dān)!
當(dāng)前路徑:http://m.5511xx.com/article/cogcidc.html


咨詢
建站咨詢
