新聞中心
ElasticSearch使用問題及解決方案匯總
2015-05-12 16:31:22
云計算 Elasticsearch是一個開源的分布式實時搜索與分析引擎,支持云服務(wù)。它是基于Apache Lucene搜索引擎的類庫創(chuàng)建的,提供了全文搜索能力、多語言支持、專門的查詢語言、支持地理位置服務(wù)、基于上下文的搜索建議、自動完成以及搜索片段(snippet)的能力,本文總結(jié)了使用 elasticsearch所遇到的各類問題以及相關(guān)的解決方案。

創(chuàng)新互聯(lián)公司于2013年創(chuàng)立,公司以成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、系統(tǒng)開發(fā)、網(wǎng)絡(luò)推廣、文化傳媒、企業(yè)宣傳、平面廣告設(shè)計等為主要業(yè)務(wù),適用行業(yè)近百種。服務(wù)企業(yè)客戶上1000家,涉及國內(nèi)多個省份客戶。擁有多年網(wǎng)站建設(shè)開發(fā)經(jīng)驗。為企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、創(chuàng)意設(shè)計、宣傳推廣等服務(wù)。 通過專業(yè)的設(shè)計、獨特的風(fēng)格,為不同客戶提供各種風(fēng)格的特色服務(wù)。
Elasticsearch是一個開源的分布式實時搜索與分析引擎,支持云服務(wù)。它是基于Apache Lucene搜索引擎的類庫創(chuàng)建的,提供了全文搜索能力、多語言支持、專門的查詢語言、支持地理位置服務(wù)、基于上下文的搜索建議、自動完成以及搜索片段(snippet)的能力。Elasticsearch支持RESTful的API,可以使用JSON通過HTTP調(diào)用它的各種功能,包括搜索、分析與監(jiān)控。此外,它還為Java、PHP、Perl、Python以及Ruby等各種語言提供了原生的客戶端類庫。下面是總結(jié)了一下使用 elasticsearch所遇到的各類問題以及相關(guān)的解決方案。
1、out of memory錯誤問題
因為默認(rèn)情況下es對字段數(shù)據(jù)緩存(Field Data Cache)大小是無限制的,查詢時會把字段值放到內(nèi)存,特別是facet查詢,對內(nèi)存要求非常高,它會把結(jié)果都放在內(nèi)存,然后進(jìn)行排序等操作,一直使用內(nèi)存,直到內(nèi)存用完,當(dāng)內(nèi)存不夠用時就有可能出現(xiàn)out of memory錯誤。
解決方法:
(1)設(shè)置es的緩存類型為Soft Reference,它的主要特點是據(jù)有較強的引用功能。只有當(dāng)內(nèi)存不夠的時候,才進(jìn)行回收這類內(nèi)存,因此在內(nèi)存足夠的時候,它們通常不被回收。另外,這些引 用對象還能保證在Java拋出OutOfMemory 異常之前,被設(shè)置為null。它可以用于實現(xiàn)一些常用圖片的緩存,實現(xiàn)Cache的功能,保證最大限度的使用內(nèi)存而不引起OutOfMemory。在es 的配置文件加上index.cache.field.type: soft即可。
(2)設(shè)置es最大緩存數(shù)據(jù)條數(shù)和緩存失效時間,通過設(shè)置index.cache.field.max_size: 50000來把緩存field的最大值設(shè)置為50000,設(shè)置index.cache.field.expire: 10m把過期時間設(shè)置成10分鐘。
2、拋出異常,錯誤如下:
- 1org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream
原因:es節(jié)點之間的JDK版本不一樣
解決方式:統(tǒng)一JDK版本和環(huán)境
3、拋出異常,錯誤如下:
- org.elasticsearch.client.transport.NoNodeAvailableException: No node available
(1)端口錯誤
client = new TransportClient().addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300));
端口9300寫成9200的報錯No node available 或者查看連接的是不是本地計算機,如果是遠(yuǎn)程的話查看一下IP地址是否正確。
(2)jar包報錯誤的話可能是引用包不匹配,開啟的服務(wù)是什么版本最好對應(yīng)相應(yīng)的jar包。
(3)修改了集群名稱,設(shè)置了集群名字導(dǎo)致出現(xiàn)問題,設(shè)置操作如下:
- Settings settings = ImmutableSettings.settingsBuilder().put("cluster.name", "yoodb").build();
- client = new TransportClient(settings).addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300));
(4)集群超過5s沒有響應(yīng),解決方式如下:
1)設(shè)置client.transport.ping_timeout超時時間,增大一些
2)代碼內(nèi)嵌入,如下:
- while (true) {
- try {
- bulk.execute().actionGet(getRetryTimeout());
- break;
- } catch (NoNodeAvailableException cont) {
- Thread.sleep(5000);
- continue;
- }
- }
4、由gc引起節(jié)點脫離集群
因為gc時會使jvm停止工作,如果某個節(jié)點gc時間過長,master ping3次(zen discovery默認(rèn)ping失敗重試3次)不通后就會把該節(jié)點剔除出集群,從而導(dǎo)致索引進(jìn)行重新分配。解決方法如下:
(1)優(yōu)化gc,減少gc時間。
(2)調(diào)大zen discovery的重試次數(shù)(es參數(shù):ping_retries)和超時時間(es參數(shù):ping_timeout)。后來發(fā)現(xiàn)根本原因是有個節(jié)點的系統(tǒng)所在硬盤滿了。導(dǎo)致系統(tǒng)性能下降。
#p#
5、無法創(chuàng)建本地線程問題
es恢復(fù)時報錯,如下:
- RecoverFilesRecoveryException[[index][3] Failed to transfer [215] files with total size of [9.4gb]]; nested: OutOfMemoryError[unable to create new native thread]; ]]
剛開始以為是文件句柄數(shù)限制,但想到之前報的是too many open file這個錯誤,并且也把數(shù)據(jù)改大了。查資料得知一個進(jìn)程的jvm進(jìn)程的最大線程數(shù)為:虛擬內(nèi)存/(堆棧大小*1024*1024),也就是說虛擬內(nèi)存越大或堆棧越小,能創(chuàng)建的線程越多。重新設(shè)置后還是會報那這錯,按理說可創(chuàng)建線程數(shù)完全夠用了的,就想是不是系統(tǒng)的一些限制。后來在網(wǎng)上找到說是max user processes的問題,這個值默認(rèn)是1024,這個參數(shù)單看名字是用戶最大打開的進(jìn)程數(shù),但看官方說明,就是用戶最多可創(chuàng)建線程數(shù),因為一個進(jìn)程最少有一個線程,所以間接影響到最大進(jìn)程數(shù)。調(diào)大這個參數(shù)后就沒有報這個錯了。
解決方法:
(1)增大jvm的heap內(nèi)存或降低xss堆棧大小(默認(rèn)的是512K)。
(2)打開/etc/security/limits.d/90-nproc.conf,把soft nproc 1024這行的1024改大就行了。
6、集群狀態(tài)為黃色時并發(fā)插入數(shù)據(jù)報錯,錯誤如下:
- [7]: index [index], type [index], id [1569133], message [UnavailableShardsException[[index][1] [4] shardIt, [2] active : Timeout waiting for [1m], request: org.elasticsearch.action.bulk.BulkShardRequest@5989fa07]]
這是錯誤信息,當(dāng)時集群狀態(tài)為黃色,即副本沒有分配。當(dāng)時副本設(shè)置為2,只有一個節(jié)點,當(dāng)你設(shè)置的副本大于可分配的機器時,此時如果你插入數(shù)據(jù)就有可能報上面的錯,因為es的寫一致性默認(rèn)是使用quorum,即quorum值必須大于(副本數(shù)/2+1),我這里2/2+1=2也就是說要要至少插入到兩份索引中,由于只有一個節(jié)點,quorum等于1,所以只插入到主索引,副本找不到從而報上面那個錯。
解決方法:(1)去掉沒分配的副本。(2)把寫一致性改成one,即只寫入一份索引就行。
7、錯誤使用api導(dǎo)致集群卡死
其實這個是很低級的錯誤。功能就是更新一些數(shù)據(jù),可能會對一些數(shù)據(jù)進(jìn)行刪除,但刪除時同事使用了deleteByQuery這個接口,通過構(gòu)造 BoolQuery把要刪除數(shù)據(jù)的id傳進(jìn)去,查出這些數(shù)據(jù)刪除。但問題是BoolQuery最多只支持1024個條件,100個條件都已經(jīng)很多了,所以這樣的查詢一下子就把es集群卡死了。
解決方法:用bulkRequest進(jìn)行批量刪除操作。
8、設(shè)置jvm鎖住內(nèi)存時啟動警告
當(dāng)設(shè)置bootstrap.mlockall: true時,啟動es報警告Unknown mlockall error 0,因為linux系統(tǒng)默認(rèn)能讓進(jìn)程鎖住的內(nèi)存為45k。
解決方法:設(shè)置為無限制,linux命令:ulimit -l unlimited
博文出處:http://www.yoodb.com/article/display/246
當(dāng)前文章:ElasticSearch使用問題及解決方案匯總
轉(zhuǎn)載來于:http://m.5511xx.com/article/coeocip.html


咨詢
建站咨詢
