日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(6):分布式爬蟲(chóng)

手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(6):分布式爬蟲(chóng)

作者:佚名 2018-05-22 15:30:30

開(kāi)發(fā)

后端

分布式 對(duì)于分布式爬蟲(chóng)系統(tǒng)來(lái)說(shuō),假設(shè)1臺(tái)機(jī)器能10天爬完一個(gè)任務(wù),如果部署10臺(tái)機(jī)器,那么1天就會(huì)完成這個(gè)任務(wù)。這樣就用可以接受的成本,讓系統(tǒng)的效率提高十倍。之前介紹的單機(jī)架構(gòu)師達(dá)不到這種效果的,是時(shí)候介紹信的架構(gòu)了!

十載的新巴爾虎左網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開(kāi)發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。成都營(yíng)銷(xiāo)網(wǎng)站建設(shè)的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整新巴爾虎左建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)公司從事“新巴爾虎左網(wǎng)站設(shè)計(jì)”,“新巴爾虎左網(wǎng)站推廣”以來(lái),每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

本系列:

  • 《手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(1):網(wǎng)易云音樂(lè)歌單》
  • 《手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(2):迷你爬蟲(chóng)架構(gòu)》
  • 《手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(3):開(kāi)源爬蟲(chóng)框架對(duì)比》
  • 《手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(4):Scrapy入門(mén)》
  • 《手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(5):PhantomJS實(shí)戰(zhàn)》

筆者以前看過(guò)一個(gè)電影叫《Who Am I – No System Is Safe》,劇中的黑客老大“Who Am I”就用代理來(lái)隱藏自己,躲避FBI和其他黑客組織的追蹤。

taskId:flag:crawler:info
Filed value 說(shuō)明
totalCnt 10000 抓取的url總數(shù):抓取完成,不管成功失敗,都加1
failCnt 0 抓取的url失敗數(shù):抓取失敗,加1
switch 1 任務(wù)狀態(tài):0:停止,1:?jiǎn)?dòng),2:暫停,3:暫停啟動(dòng)
priority 1 任務(wù)優(yōu)先級(jí)
retryCnt 0 重試次數(shù)
status 0 任務(wù)執(zhí)行狀態(tài):1:進(jìn)行中,2:完成
Ref 0 url引用數(shù):每消費(fèi)一個(gè)url,減1;生成一個(gè)url,加1。等于0則任務(wù)完成
maxThreadCnt 100 任務(wù)的***線程數(shù)
remainThreadCnt 10 剩余可用線程數(shù)
lastFetchTime 1496404451532 上一次抓取時(shí)間

taskId:flag:parser:info

Filed value 說(shuō)明
totalCnt 10000 解析總數(shù):解析完成,不管成功失敗,都加1
failCnt 0 解析失敗數(shù):解析失敗,加1
crawlerStatus 0 爬取狀態(tài):0:進(jìn)行中,2:完成
ref 10 url引用數(shù):crawler每保存一個(gè)網(wǎng)頁(yè),加1;parser每解析完成一個(gè)網(wǎng)頁(yè),減1。等于0不說(shuō)明任務(wù)完成。若crawlerStatus等于2,ref等于0,則任務(wù)完成。

taskId:flag:filter:info

Filed value 說(shuō)明
totalCnt 10000 清洗總數(shù):清洗完成,不管成功失敗,都加1
failCnt 0 清洗失敗數(shù):清洗失敗,加1
crawlerStatus 0 解析狀態(tài):0:進(jìn)行中,2:完成
ref 10 url引用數(shù):parser每保存一條數(shù)據(jù),加1;filter每清洗完成一條數(shù)據(jù),減1。等于0不說(shuō)明任務(wù)完成。若parserStatus等于2,ref等于0,則任務(wù)完成。

流程控制 – failover

如果一個(gè)Crawler_core的機(jī)器掛掉了,就會(huì)開(kāi)始數(shù)據(jù)恢復(fù)程序,把這臺(tái)機(jī)器所有未完成的任務(wù)恢復(fù)到公共緩存中。


文章名稱:手把手教你寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(6):分布式爬蟲(chóng)
地址分享:http://m.5511xx.com/article/djpdosh.html