无码AⅤ导航97AV在线,亚洲图片在线色乱色在线观看

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

設(shè)計(jì)和實(shí)現(xiàn)一款輕量級(jí)的爬蟲框架

說(shuō)起爬蟲，大家能夠想起 Python 里赫赫有名的 Scrapy 框架，在本文中我們參考這個(gè)設(shè)計(jì)思想使用 Java 語(yǔ)言來(lái)實(shí)現(xiàn)一款自己的爬蟲框（lun）架（zi）。我們從起點(diǎn)一步一步分析爬蟲框架的誕生過(guò)程。

我把這個(gè)爬蟲框架的源碼放在 github 上，里面有幾個(gè)例子可以運(yùn)行。

關(guān)于爬蟲的一切

下面我們來(lái)介紹什么是爬蟲？以及爬蟲框架的設(shè)計(jì)和遇到的問(wèn)題。

什么是爬蟲？

“爬蟲”不是一只生活在泥土里的小蟲子，網(wǎng)絡(luò)爬蟲（web crawler），也叫網(wǎng)絡(luò)蜘蛛（spider），是一種用來(lái)自動(dòng)瀏覽網(wǎng)絡(luò)上內(nèi)容的機(jī)器人。爬蟲訪問(wèn)網(wǎng)站的過(guò)程會(huì)消耗目標(biāo)系統(tǒng)資源，很多網(wǎng)站不允許被爬蟲抓?。ㄟ@就是你遇到過(guò)的 robots.txt 文件，這個(gè)文件可以要求機(jī)器人只對(duì)網(wǎng)站的一部分進(jìn)行索引，或完全不作處理）。因此在訪問(wèn)大量頁(yè)面時(shí)，爬蟲需要考慮到規(guī)劃、負(fù)載，還需要講“禮貌”（大兄弟，慢點(diǎn)）。

互聯(lián)網(wǎng)上的頁(yè)面極多，即使是***的爬蟲系統(tǒng)也無(wú)法做出完整的索引。因此在公元2000年之前的萬(wàn)維網(wǎng)出現(xiàn)初期，搜索引擎經(jīng)常找不到多少相關(guān)結(jié)果。現(xiàn)在的搜索引擎在這方面已經(jīng)進(jìn)步很多，能夠即刻給出高質(zhì)量結(jié)果。

網(wǎng)絡(luò)爬蟲會(huì)遇到的問(wèn)題

既然有人想抓取，就會(huì)有人想防御。網(wǎng)絡(luò)爬蟲在運(yùn)行的過(guò)程中會(huì)遇到一些阻礙，在業(yè)內(nèi)稱之為反爬蟲策略我們來(lái)列出一些常見的。

訪問(wèn)頻率限制
Header 頭信息校驗(yàn)
動(dòng)態(tài)頁(yè)面生成
IP 地址限制
Cookie 限制(或稱為登錄限制)
驗(yàn)證碼限制
等等…

這些是傳統(tǒng)的反爬蟲手段，當(dāng)然未來(lái)也會(huì)更加先進(jìn)，技術(shù)的革新永遠(yuǎn)會(huì)帶動(dòng)多個(gè)行業(yè)的發(fā)展，畢竟 AI 的時(shí)代已經(jīng)到來(lái)，爬蟲和反爬蟲的斗爭(zhēng)一直持續(xù)進(jìn)行。

爬蟲框架要考慮什么

設(shè)計(jì)我們的框架

我們要設(shè)計(jì)一款爬蟲框架，是基于 Scrapy 的設(shè)計(jì)思路來(lái)完成的，先來(lái)看看在沒有爬蟲框架的時(shí)候我們是如何抓取頁(yè)面信息的。一個(gè)常見的例子是使用 HttpClient 包或者 Jsoup 來(lái)處理，對(duì)于一個(gè)簡(jiǎn)單的小爬蟲而言這足夠了。

下面來(lái)演示一段沒有爬蟲框架的時(shí)候抓取頁(yè)面的代碼，這是我在網(wǎng)絡(luò)上搜索的

 
 
 
 
  
  
  
  public class Reptile {  
  
  
  
     public static void main(String[] args) { 
  
  
  
      //傳入你所要爬取的頁(yè)面地址 
  
  
  
      String url1 = ""; 
  
  
  
      //創(chuàng)建輸入流用于讀取流 
  
  
  
      InputStream is = null; 
  
  
  
      //包裝流,加快讀取速度 
  
  
  
      BufferedReader br = null; 
  
  
  
      //用來(lái)保存讀取頁(yè)面的數(shù)據(jù). 
  
  
  
      StringBuffer html = new StringBuffer(); 
  
  
  
      //創(chuàng)建臨時(shí)字符串用于保存每一次讀的一行數(shù)據(jù)，然后html調(diào)用append方法寫入temp; 
  
  
  
      String temp = ""; 
  
  
  
      try { 
  
  
  
          //獲取URL; 
  
  
  
          URL url2 = new URL(url1); 
  
  
  
          //打開流，準(zhǔn)備開始讀取數(shù)據(jù); 
  
  
  
          is = url2.openStream(); 
  
  
  
          //將流包裝成字符流，調(diào)用br.readLine()可以提高讀取效率，每次讀取一行; 
  
  
  
          br= new BufferedReader(new InputStreamReader(is)); 
  
  
  
          //讀取數(shù)據(jù),調(diào)用br.readLine()方法每次讀取一行數(shù)據(jù),并賦值給temp,如果沒數(shù)據(jù)則值==null,跳出循環(huán);
  
  
  
          while ((temp = br.readLine()) != null) { 
  
  
  
              //將temp的值追加給html,這里注意的時(shí)String跟StringBuffere的區(qū)別前者不是可變的后者是可變的; 
  
  
  
              html.append(temp); 
  
  
  
          } 
  
  
  
          //接下來(lái)是關(guān)閉流,防止資源的浪費(fèi); 
  
  
  
          if(is != null) { 
  
  
  
              is.close(); 
  
  
  
              is = null; 
  
  
  
          } 
  
  
  
          //通過(guò)Jsoup解析頁(yè)面,生成一個(gè)document對(duì)象; 
  
  
  
          Document doc = Jsoup.parse(html.toString()); 
  
  
  
          //通過(guò)class的名字得到（即XX）,一個(gè)數(shù)組對(duì)象Elements里面有我們想要的數(shù)據(jù),至于這個(gè)div的值呢你打開瀏覽器按下F12就知道了; 
  
  
  
          Elements elements = doc.getElementsByClass("XX"); 
  
  
  
          for (Element element : elements) { 
  
  
  
          //打印出每一個(gè)節(jié)點(diǎn)的信息;你可以選擇性的保留你想要的數(shù)據(jù),一般都是獲取個(gè)固定的索引; 
  
  
  
              System.out.println(element.text()); 
  
  
  
          } 
  
  
  
      } catch (MalformedURLException e) { 
  
  
  
          e.printStackTrace(); 
  
  
  
      } catch (IOException e) { 
  
  
  
          e.printStackTrace(); 
  
  
  
      }    
  
  
  
  }

從如此豐富的注釋中我感受到了作者的耐心，我們來(lái)分析一下這個(gè)爬蟲在干什么?

輸入一個(gè)要爬取的URL地址
通過(guò) JDK 原生 API 發(fā)送網(wǎng)絡(luò)請(qǐng)求獲取頁(yè)面信息（這里沒有使用 HttpClient）
使用 Jsoup 解析 DOM
處理自己需要的數(shù)據(jù)
將它們輸出在控制臺(tái)

大概就是這樣的步驟，代碼也非常簡(jiǎn)潔，我們?cè)O(shè)計(jì)框架的目的是將這些流程統(tǒng)一化，把通用的功能進(jìn)行抽象，減少重復(fù)工作。還有一些沒考慮到的因素添加進(jìn)去，那么設(shè)計(jì)爬蟲框架要有哪些組成呢？

URL管理
網(wǎng)頁(yè)下載器
爬蟲調(diào)度器
網(wǎng)頁(yè)解析器
數(shù)據(jù)處理器

分別來(lái)解釋一下每個(gè)組成的作用是什么。

URL管理器

爬蟲框架要處理很多的URL，我們需要設(shè)計(jì)一個(gè)隊(duì)列存儲(chǔ)所有要處理的URL，這種先進(jìn)先出的數(shù)據(jù)結(jié)構(gòu)非常符合這個(gè)需求。將所有要下載的URL存儲(chǔ)在待處理隊(duì)列中，每次下載會(huì)取出一個(gè)，隊(duì)列中就會(huì)少一個(gè)。我們知道有些URL的下載會(huì)有反爬蟲策略，所以針對(duì)這些請(qǐng)求需要做一些特殊的設(shè)置，進(jìn)而可以對(duì)URL進(jìn)行封裝抽出 Request。

網(wǎng)頁(yè)下載器

在前面的簡(jiǎn)單例子中可以看出，如果沒有網(wǎng)頁(yè)下載器，用戶就要編寫網(wǎng)絡(luò)請(qǐng)求的處理代碼，這無(wú)疑對(duì)每個(gè)URL都是相同的動(dòng)作。所以在框架設(shè)計(jì)中我們直接加入它就好了，至于使用什么庫(kù)來(lái)進(jìn)行下載都是可以的，你可以用 httpclient 也可以用 okhttp，在本文中我們使用一個(gè)超輕量級(jí)的網(wǎng)絡(luò)請(qǐng)求庫(kù) oh-my-request (沒錯(cuò)，就是在下搞的)。優(yōu)秀的框架設(shè)計(jì)會(huì)將這個(gè)下載組件置為可替換，提供默認(rèn)的即可。

爬蟲調(diào)度器

調(diào)度器和我們?cè)陂_發(fā) web 應(yīng)用中的控制器是一個(gè)類似的概念，它用于在下載器、解析器之間做流轉(zhuǎn)處理。解析器可以解析到更多的URL發(fā)送給調(diào)度器，調(diào)度器再次的傳輸給下載器，這樣就會(huì)讓各個(gè)組件有條不紊的進(jìn)行工作。

網(wǎng)頁(yè)解析器

我們知道當(dāng)一個(gè)頁(yè)面下載完成后就是一段 HTML 的 DOM 字符串表示，但還需要提取出真正需要的數(shù)據(jù)，以前的做法是通過(guò) String 的 API 或者正則表達(dá)式的方式在 DOM 中搜尋，這樣是很麻煩的，框架應(yīng)該提供一種合理、常用、方便的方式來(lái)幫助用戶完成提取數(shù)據(jù)這件事兒。常用的手段是通過(guò) xpath 或者 css 選擇器從 DOM 中進(jìn)行提取，而且學(xué)習(xí)這項(xiàng)技能在幾乎所有的爬蟲框架中都是適用的。

數(shù)據(jù)處理器

普通的爬蟲程序中是把網(wǎng)頁(yè)解析器和數(shù)據(jù)處理器合在一起的，解析到數(shù)據(jù)后馬上處理。在一個(gè)標(biāo)準(zhǔn)化的爬蟲程序中，他們應(yīng)該是各司其職的，我們先通過(guò)解析器將需要的數(shù)據(jù)解析出來(lái)，可能是封裝成對(duì)象。然后傳遞給數(shù)據(jù)處理器，處理器接收到數(shù)據(jù)后可能是存儲(chǔ)到數(shù)據(jù)庫(kù)，也可能通過(guò)接口發(fā)送給老王。

基本特性

上面說(shuō)了這么多，我們?cè)O(shè)計(jì)的爬蟲框架有以下幾個(gè)特性，沒有做到大而全，可以稱得上輕量迷你挺好用。

易于定制: 很多站點(diǎn)的下載頻率、瀏覽器要求是不同的，爬蟲框架需要提供此處擴(kuò)展配置
多線程下載: 當(dāng)CPU核數(shù)多的時(shí)候多線程下載可以更快完成任務(wù)
支持 XPath 和 CSS 選擇器解析

架構(gòu)圖

整個(gè)流程和 Scrapy 是一致的，但簡(jiǎn)化了一些操作

引擎(Engine): 用來(lái)處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(wù)(框架核心)
調(diào)度器(Scheduler): 用來(lái)接受引擎發(fā)過(guò)來(lái)的請(qǐng)求, 壓入隊(duì)列中, 并在引擎再次請(qǐng)求的時(shí)候返回. 可以想像成一個(gè)URL（抓取網(wǎng)頁(yè)的網(wǎng)址或者說(shuō)是鏈接）的優(yōu)先隊(duì)列, 由它來(lái)決定下一個(gè)要抓取的網(wǎng)址是什么, 同時(shí)去除重復(fù)的網(wǎng)址
下載器(Downloader): 用于下載網(wǎng)頁(yè)內(nèi)容, 并將網(wǎng)頁(yè)內(nèi)容返回給調(diào)度器
爬蟲(Spiders): 爬蟲是主要干活的, 用于從特定的網(wǎng)頁(yè)中提取自己需要的信息, 即所謂的實(shí)體(Item)。用戶也可以從中提取出鏈接，讓框架繼續(xù)抓取下一個(gè)頁(yè)面
項(xiàng)目管道(Pipeline): 負(fù)責(zé)處理爬蟲從網(wǎng)頁(yè)中抽取的實(shí)體，主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息。當(dāng)頁(yè)面被爬蟲解析后，將被發(fā)送到項(xiàng)目管道，并經(jīng)過(guò)幾個(gè)特定的次序處理數(shù)據(jù)。

執(zhí)行流程圖

首先，引擎從調(diào)度器中取出一個(gè)鏈接(URL)用于接下來(lái)的抓取
引擎把URL封裝成一個(gè)請(qǐng)求(Request)傳給下載器，下載器把資源下載下來(lái)，并封裝成應(yīng)答包(Response)
然后，爬蟲解析Response
若是解析出實(shí)體（Item）,則交給實(shí)體管道進(jìn)行進(jìn)一步的處理。
若是解析出的是鏈接（URL）,則把URL交給Scheduler等待抓取

項(xiàng)目結(jié)構(gòu)

該項(xiàng)目使用 Maven3、Java8 進(jìn)行構(gòu)建，代碼結(jié)構(gòu)如下：

 
 
 
 
  
  
  
  .
  
  
  
  
  
  
  
  └── elves
  
  
  
  
  
  
  
      ├── Elves.java
  
  
  
  
  
  
  
      ├── ElvesEngine.java
  
  
  
  
  
  
  
      ├── config
  
  
  
  
  
  
  
      ├── download
  
  
  
  
  
  
  
      ├── event
  
  
  
  
  
  
  
      ├── pipeline
  
  
  
  
  
  
  
      ├── request
  
  
  
  
  
  
  
      ├── response
  
  
  
  
  
  
  
      ├── scheduler
  
  
  
  
  
  
  
      ├── spider
  
  
  
  
  
  
  
      └── utils

編碼要點(diǎn)

前面設(shè)計(jì)思路明白之后，編程不過(guò)是順手之作，至于寫的如何考量的是程序員對(duì)編程語(yǔ)言的使用熟練度以及架構(gòu)上的思考，優(yōu)秀的代碼是經(jīng)驗(yàn)和優(yōu)化而來(lái)的，下面我們來(lái)看幾個(gè)框架中的代碼示例。

使用觀察者模式的思想來(lái)實(shí)現(xiàn)基于事件驅(qū)動(dòng)的功能

 
 
 
 
  
  
  
  public enum ElvesEvent {  
  
  
  
      GLOBAL_STARTED, 
  
  
  
      SPIDER_STARTED  
  
  
  
  }  
  
  
  
  public class EventManager {  
  
  
  
      private static final Map>> elvesEventConsumerMap = new HashMap<>();
  
  
  
  
  
  
  
      // 注冊(cè)事件 
  
  
  
      public static void registerEvent(ElvesEvent elvesEvent, Consumer consumer) { 
  
  
  
          List> consumers = elvesEventConsumerMap.get(elvesEvent); 
  
  
  
          if (null == consumers) { 
  
  
  
              consumers = new ArrayList<>(); 
  
  
  
          } 
  
  
  
          consumers.add(consumer); 
  
  
  
          elvesEventConsumerMap.put(elvesEvent, consumers); 
  
  
  
      } 
  
  
  
      // 執(zhí)行事件 
  
  
  
      public static void fireEvent(ElvesEvent elvesEvent, Config config) { 
  
  
  
          Optional.ofNullable(elvesEventConsumerMap.get(elvesEvent)).ifPresent(consumers -> consumers.forEach(consumer -> consumer.accept(config))); 
  
  
  
      }  
  
  
  
  }

這段代碼中使用一個(gè) Map 來(lái)存儲(chǔ)所有事件，提供兩個(gè)方法：注冊(cè)一個(gè)事件、執(zhí)行某個(gè)事件。

阻塞隊(duì)列存儲(chǔ)請(qǐng)求響應(yīng)

 
 
 
 
  
  
  
  public class Scheduler { 
  
  
  
  
  
  
  
      private BlockingQueue  pending = new LinkedBlockingQueue<>();   
  
  
  
  
  
  
  
      private BlockingQueue result  = new LinkedBlockingQueue<>(); 
  
  
  
  
  
  
  
      public void addRequest(Request request) {
  
  
  
  
  
  
  
          try {
  
  
  
  
  
  
  
              this.pending.put(request);
  
  
  
  
  
  
  
          } catch (InterruptedException e) {
  
  
  
  
  
  
  
              log.error("向調(diào)度器添加 Request 出錯(cuò)", e);
  
  
  
  
  
  
  
          }
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
      public void addResponse(Response response) {
  
  
  
  
  
  
  
          try {
  
  
  
  
  
  
  
              this.result.put(response);
  
  
  
  
  
  
  
          } catch (InterruptedException e) {
  
  
  
  
  
  
  
              log.error("向調(diào)度器添加 Response 出錯(cuò)", e);
  
  
  
  
  
  
  
          }
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
      public boolean hasRequest() {
  
  
  
  
  
  
  
          return pending.size() > 0;
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
      public Request nextRequest() {
  
  
  
  
  
  
  
          try {
  
  
  
  
  
  
  
              return pending.take();
  
  
  
  
  
  
  
          } catch (InterruptedException e) {
  
  
  
  
  
  
  
              log.error("從調(diào)度器獲取 Request 出錯(cuò)", e);
  
  
  
  
  
  
  
              return null;
  
  
  
  
  
  
  
          }
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
      public boolean hasResponse() {
  
  
  
  
  
  
  
          return result.size() > 0;
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
      public Response nextResponse() {
  
  
  
  
  
  
  
          try {
  
  
  
  
  
  
  
              return result.take();
  
  
  
  
  
  
  
          } catch (InterruptedException e) {
  
  
  
  
  
  
  
              log.error("從調(diào)度器獲取 Response 出錯(cuò)", e);
  
  
  
  
  
  
  
              return null;
  
  
  
  
  
  
  
          }
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
      public void addRequests(List requests) {
  
  
  
  
  
  
  
          requests.forEach(this::addRequest);
  
  
  
  
  
  
  
      } 
  
  
  
  
  
  
  
  }

pending 存儲(chǔ)等待處理的URL請(qǐng)求，result 存儲(chǔ)下載成功的響應(yīng)，調(diào)度器負(fù)責(zé)請(qǐng)求和響應(yīng)的獲取和添加流轉(zhuǎn)。

舉個(gè)栗子

設(shè)計(jì)好我們的爬蟲框架后來(lái)試一下吧，這個(gè)例子我們來(lái)爬取豆瓣電影的標(biāo)題。豆瓣電影中有很多分類，我們可以選擇幾個(gè)作為開始抓取的 URL。

 
 
 
 
  
  
  
  public class DoubanSpider extends Spider { 
  
  
  
      public DoubanSpider(String name) {
  
  
  
          super(name);
  
  
  
          this.startUrls(
  
  
  
              "https://movie.douban.com/tag/愛情",
  
  
  
              "https://movie.douban.com/tag/喜劇",
  
  
  
              "https://movie.douban.com/tag/動(dòng)畫",
  
  
  
              "https://movie.douban.com/tag/動(dòng)作",
  
  
  
              "https://movie.douban.com/tag/史詩(shī)",
  
  
  
              "https://movie.douban.com/tag/犯罪");
  
  
  
      }
  
  
  
      @Override
  
  
  
      public void onStart(Config config) {
  
  
  
          this.addPipeline((Pipeline>) (item, request) -> log.info("保存到文件: {}", item));
  
  
  
      }
  
  
  
      public Result parse(Response response) {
  
  
  
          Result> result   = new Result<>();
  
  
  
          Elements             elements = response.body().css("#content table .pl2 a"); 
  
  
  
          List titles = elements.stream().map(Element::text).collect(Collectors.toList());
  
  
  
          result.setItem(titles); 
  
  
  
          // 獲取下一頁(yè) URL
  
  
  
          Elements nextEl = response.body().css("#content > div > div.article > div.paginator > span.next > a");
  
  
  
          if (null != nextEl && nextEl.size() > 0) {
  
  
  
              String  nextPageUrl = nextEl.get(0).attr("href");
  
  
  
              Request nextReq     = this.makeRequest(nextPageUrl, this::parse);
  
  
  
              result.addRequest(nextReq);
  
  
  
          }
  
  
  
          return result;
  
  
  
      }
  
  
  
  }
  
  
  
  public static void main(String[] args) {
  
  
  
      DoubanSpider doubanSpider = new DoubanSpider("豆瓣電影");
  
  
  
      Elves.me(doubanSpider, Config.me()).start();
  
  
  
  }

這段代碼中在 onStart 方法是爬蟲啟動(dòng)時(shí)的一個(gè)事件，會(huì)在啟動(dòng)該爬蟲的時(shí)候執(zhí)行，在這里我們?cè)O(shè)置了啟動(dòng)要抓取的URL列表。然后添加了一個(gè)數(shù)據(jù)處理的 Pipeline，在這里處理管道中只進(jìn)行了輸出，你也可以存儲(chǔ)。

在 parse 方法中做了兩件事，首先解析當(dāng)前抓取到的所有電影標(biāo)題，將標(biāo)題數(shù)據(jù)收集為 List 傳遞給 Pipeline；其次根據(jù)當(dāng)前頁(yè)面繼續(xù)抓取下一頁(yè)，將下一頁(yè)請(qǐng)求傳遞給調(diào)度器，由調(diào)度器轉(zhuǎn)發(fā)給下載器。這里我們使用一個(gè) Result 對(duì)象接收。

總結(jié)

設(shè)計(jì)一款爬蟲框架的基本要點(diǎn)在文中已經(jīng)闡述，要做的更好還有很多細(xì)節(jié)需要打磨，比如分布式、容錯(cuò)恢復(fù)、動(dòng)態(tài)頁(yè)面抓取等問(wèn)題。歡迎在 elves 中提交你的意見。

參考文獻(xiàn)

常見的反爬蟲和應(yīng)對(duì)方法
反爬蟲思路與解決辦法
網(wǎng)絡(luò)爬蟲

標(biāo)題名稱：設(shè)計(jì)和實(shí)現(xiàn)一款輕量級(jí)的爬蟲框架
當(dāng)前地址：http://m.5511xx.com/article/cdoppid.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

其他資訊