新聞中心
沒(méi)有遇到故障的運(yùn)維不是合格的運(yùn)維,沒(méi)有處理故障的運(yùn)維不是好運(yùn)維。

創(chuàng)新互聯(lián)建站專(zhuān)注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷(xiāo)網(wǎng)站建設(shè)、三亞網(wǎng)絡(luò)推廣、小程序開(kāi)發(fā)、三亞網(wǎng)絡(luò)營(yíng)銷(xiāo)、三亞企業(yè)策劃、三亞品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)建站為所有大學(xué)生創(chuàng)業(yè)者提供三亞建站搭建服務(wù),24小時(shí)服務(wù)熱線:13518219792,官方網(wǎng)址:www.cdcxhl.com
做運(yùn)維這么多年,每天依然提心吊膽,擔(dān)心突發(fā)故障,打破生活節(jié)奏。
可是,人算不如天算,大部分故障都來(lái)源于近乎合理的操作,這次也是一樣。
起因是要把幾百G的數(shù)據(jù)傳輸?shù)桨⒗镌频腘as,通過(guò)外網(wǎng)掛載的方式拷貝。按道理講這沒(méi)什么問(wèn)題,不就幾百G的數(shù)據(jù)么,之前拷貝幾個(gè)T的數(shù)據(jù)都沒(méi)問(wèn)題。
可偏偏不按道理講。
這幾百G的數(shù)據(jù)全是由大量的小文件組成,在拷貝的時(shí)候既要頻繁的占用本地磁盤(pán)IO,也要占用網(wǎng)絡(luò)IO,然后事情就發(fā)生了——服務(wù)器的負(fù)載直接干爆(原本8核的CPU,負(fù)載高達(dá)500多),而且服務(wù)器是老年機(jī),配置很Low。這就導(dǎo)致該服務(wù)器直接處于死亡狀態(tài),更可氣的是該服務(wù)器是K8S集群的master,Master宕機(jī),其他節(jié)點(diǎn)失聯(lián),集群處于崩潰中。
負(fù)載下不來(lái),服務(wù)器無(wú)法操作。只有出絕招了——重啟服務(wù)器。
在提心吊膽中服務(wù)器終于是起來(lái)了。但是,新問(wèn)題來(lái)了,Docker起不來(lái),提示/var/lib/docker/overlays Input/Output error。
這特么不是盡給我惹事么,所幸的是只是這個(gè)目錄下的部分文件異常,整個(gè)文件系統(tǒng)并沒(méi)有損壞。
既然你起不來(lái),那我就換一個(gè)目錄吧,我就在/etc/docker/daemon.json中重新更改了目錄:
cat > /etc/docker/daemon.json << EOF
{
"data-root": "/data/docker"
}
EOF
Docker起來(lái)了,看似向好的方向發(fā)展了,可是Docker壓根用不了。
陷入了沉默,內(nèi)心焦躁不安,如果不及時(shí)解決會(huì)影響整體的項(xiàng)目進(jìn)度......
開(kāi)始做最壞的打算——重做。隨機(jī)開(kāi)始把未備份的數(shù)據(jù)進(jìn)行備份 ,然后另一方面問(wèn)谷歌大佬,看有沒(méi)有類(lèi)似的問(wèn)題,最后什么也沒(méi)找到。
沉入谷底,如果重做,我一晚上都不一定能做好,但是不重做,所有的工作都可能停滯。
為了靜下心,買(mǎi)了一盒泡面.....
其實(shí)問(wèn)題的目標(biāo)很明確了,修復(fù)好docker,一切都迎刃而解。
又重頭去梳理Docker的配置。發(fā)現(xiàn)Docker的啟動(dòng)文件中有引入其他配置。
然后發(fā)現(xiàn)在docker-options.conf中有配置Docker的data-root,我就把其改了,把原來(lái)/etc/docker/daemon.json刪了。
神奇的事情發(fā)生,Docker能夠正常啟動(dòng),也沒(méi)有再報(bào)任何錯(cuò)誤。
現(xiàn)在就開(kāi)始啟動(dòng)Etcd,為了保險(xiǎn)起見(jiàn),將原有的數(shù)據(jù)進(jìn)行了備份,然后重新恢復(fù)故障前最近的Etcd備份文件。
Etcd順利起來(lái)了,然后apiserver、controller-manager等都起來(lái)了,整個(gè)集群開(kāi)始正常運(yùn)轉(zhuǎn)。
問(wèn)題發(fā)生的出乎意料,問(wèn)題解決的也出乎意料。
所以,平時(shí)在工作中:
1、做好備份
2、謹(jǐn)慎操作
3、冷靜分析
問(wèn)題發(fā)生,總要找解決辦法,做好最壞的打算。在解決問(wèn)題的過(guò)程中一定要冷靜,我有一陣子很急躁,導(dǎo)致沒(méi)有仔細(xì)去看配置,所以延緩了恢復(fù)時(shí)間。
文章題目:好險(xiǎn)!我差點(diǎn)重做整個(gè)K8S集群
網(wǎng)頁(yè)鏈接:http://m.5511xx.com/article/dppidoe.html


咨詢
建站咨詢
