新聞中心
這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
Python網(wǎng)頁(yè)爬蟲制作DIY實(shí)際操作
Python網(wǎng)頁(yè)爬蟲在實(shí)際的使用中需要我們注意很多的地方,其實(shí)有的東西大家看著難但是在實(shí)際操作起來(lái)的話都很簡(jiǎn)單。下面我們就來(lái)學(xué)習(xí)下如何自己動(dòng)手編寫一個(gè)Python網(wǎng)頁(yè)爬蟲。

創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比塔河網(wǎng)站開(kāi)發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式塔河網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋塔河地區(qū)。費(fèi)用合理售后完善,10多年實(shí)體公司更值得信賴。
這個(gè)程序因?yàn)橹黜?yè)面鏈接到的頁(yè)面都在同一個(gè)目錄下,結(jié)構(gòu)很簡(jiǎn)單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下:
- #!/usr/bin/env python
- # -*- coding: GBK -*-
- import urllib
- from sgmllib import SGMLParser
- class URLLister(SGMLParser):
- def reset(self):
- SGMLParser.reset(self)
- self.urls = []
- def start_a(self, attrs):
- href = [v for k, v in attrs if k == 'href']
- if href:
- self.urls.extend(href)
- url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
ngShuoShenMo/'- sock = urllib.urlopen(url)
- htmlSource = sock.read()
- sock.close()
- #print htmlSource
- f = file('jingangjing.html', 'w')
- f.write(htmlSource)
- f.close()
- mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
gJingShuoShenMo/'- parser = URLLister()
- parser.feed(htmlSource)
- for url in parser.urls:
- myurl = mypath + url
- print "get: " + myurl
- sock2 = urllib.urlopen(myurl)
- html2 = sock2.read()
- sock2.close()
- # 保存到文件
- print "save as: " + url
- f2 = file(url, 'w')
- f2.write(html2)
- f2.close()
以上就是對(duì)Python網(wǎng)頁(yè)爬蟲在編寫過(guò)程中的詳細(xì)介紹。
【編輯推薦】
- Python腳本解決在游戲開(kāi)發(fā)中的困難
- 簡(jiǎn)述Python語(yǔ)言經(jīng)驗(yàn)總結(jié)
- Python對(duì)象主要特征解析
- Python顯示UTF-8中文文本具體操作方法講解
- Python綁定C++程序具體實(shí)現(xiàn)方法淺談
分享題目:Python網(wǎng)頁(yè)爬蟲制作DIY實(shí)際操作
瀏覽路徑:http://m.5511xx.com/article/cdggcci.html


咨詢
建站咨詢
