日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
用Python爬取天氣并且語(yǔ)言播報(bào)

一、 預(yù)備知識(shí)

公司專注于為企業(yè)提供成都網(wǎng)站制作、做網(wǎng)站、微信公眾號(hào)開(kāi)發(fā)、商城網(wǎng)站建設(shè),微信小程序定制開(kāi)發(fā),軟件定制網(wǎng)站設(shè)計(jì)等一站式互聯(lián)網(wǎng)企業(yè)服務(wù)。憑借多年豐富的經(jīng)驗(yàn),我們會(huì)仔細(xì)了解各客戶的需求而做出多方面的分析、設(shè)計(jì)、整合,為客戶設(shè)計(jì)出具風(fēng)格及創(chuàng)意性的商業(yè)解決方案,創(chuàng)新互聯(lián)建站更提供一系列網(wǎng)站制作和網(wǎng)站推廣的服務(wù)。

此案例實(shí)現(xiàn)功能:利用網(wǎng)絡(luò)爬蟲,爬取某地的天氣,并打印和語(yǔ)音播報(bào) 。 要用到requests庫(kù),lxml庫(kù),pyttsx3庫(kù),沒(méi)有的,可以先安裝一下,都可以通過(guò)pip安裝:

 
 
 
  1. pip install requests 
  2. pip install lxml 
  3. pip install pyttsx3 

Requests庫(kù)是個(gè)功能很強(qiáng)大的網(wǎng)絡(luò)請(qǐng)求庫(kù),可以實(shí)現(xiàn)跟瀏覽器一樣發(fā)送各種HTTP請(qǐng)求來(lái)獲取網(wǎng)站的數(shù)據(jù)。

Lxml庫(kù)是處理XML和HTML功能最豐富,最易于使用的庫(kù),通常用lxml庫(kù)中的etree使HTML轉(zhuǎn)化為文檔。

Pyttsx3庫(kù)是一個(gè)很簡(jiǎn)單的播放語(yǔ)音的庫(kù),你給它什么,它就讀什么,當(dāng)然別在意生硬的語(yǔ)氣。 基本用法如下:

 
 
 
  1. import pyttsx3 
  2.  
  3. word = pyttsx3.init() 
  4. word.say('你好') 
  5. # 關(guān)鍵一句,沒(méi)有這行代碼,不會(huì)播放語(yǔ)音 
  6. word.runAndWait() 

碼字不易廢話兩句:有需要學(xué)習(xí)資料的或者有技術(shù)問(wèn)題交流可以私信小編發(fā)送“01”即可

爬蟲是爬取網(wǎng)頁(yè)的相關(guān)內(nèi)容,了解HTML能夠幫助你更好的理解網(wǎng)頁(yè)的結(jié)構(gòu)、內(nèi)容等。 TCP/IP協(xié)議,HTTP協(xié)議這些知識(shí)了解一下就可以,能夠讓你了解在網(wǎng)絡(luò)請(qǐng)求和網(wǎng)絡(luò)傳輸上的基本原理,這次的小案例用不到。

二、 詳細(xì)說(shuō)一說(shuō)

2.1. get請(qǐng)求目標(biāo)網(wǎng)址

我們首先導(dǎo)入requests庫(kù),然后就用它來(lái)獲取目標(biāo)的網(wǎng)頁(yè),我們請(qǐng)求的是天氣網(wǎng)站中的北京天氣。

 
 
 
  1. import requests 
  2. # 向目標(biāo)url地址發(fā)送請(qǐng)求,返回一個(gè)response對(duì)象 
  3. req = requests.get('https://www.tianqi.com/beijing/') 
  4. # .text是response對(duì)象的網(wǎng)頁(yè)html 
  5. print(req.text) 

打印出的結(jié)果就是網(wǎng)站上顯示的內(nèi)容,瀏覽器就是通過(guò)這些內(nèi)容“解析”出來(lái)我們看到的結(jié)構(gòu)如下:

我們請(qǐng)求后的獲得的數(shù)據(jù)

注意啦,小伙伴們有很大可能運(yùn)行之后得不到網(wǎng)頁(yè)代碼,而是顯示403,這是什么意思呢?

403錯(cuò)誤是一種在網(wǎng)站訪問(wèn)過(guò)程中,常見(jiàn)的錯(cuò)誤提示,表示資源不可用。服務(wù)器理解客戶的請(qǐng)求,但拒絕處理它。

我們寫的爬蟲一般會(huì)默認(rèn)告訴服務(wù)器,自己發(fā)送一個(gè)Python爬取請(qǐng)求,而很多的網(wǎng)站都會(huì)設(shè)置反爬蟲的機(jī)制,不允許被爬蟲訪問(wèn)的。

所以,我們想讓目標(biāo)服務(wù)器響應(yīng),那就把我們的爬蟲進(jìn)行一下偽裝。此小案例就用常用的更改User-Agent字段進(jìn)行偽裝。

改一下之前的代碼,將爬蟲偽裝成瀏覽器請(qǐng)求,這樣就可以進(jìn)行正常的訪問(wèn)了。

 
 
 
  1. import requests 
  2. headers = {'content-type':'application/json', 'User-Agent':'Mozilla/5.0 (Xll; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'} 
  3. # 向目標(biāo)url地址發(fā)送請(qǐng)求,返回一個(gè)response對(duì)象 
  4. req = requests.get('https://www.tianqi.com/beijing/',headers=headers) 
  5. # .text是response對(duì)象的網(wǎng)頁(yè)html 
  6. print(req.text) 

User-Agent字段怎么來(lái)的呢?我們以Chrome瀏覽器為例子,先隨便打開(kāi)一個(gè)網(wǎng)頁(yè),按鍵盤的F12或在空白處點(diǎn)擊鼠標(biāo)右鍵選擇“檢查”;然后刷新網(wǎng)頁(yè),點(diǎn)擊“Network”再點(diǎn)擊“Doc”,點(diǎn)擊Headers,在信息欄查看Request Headers的User-Agent字段,直接復(fù)制,咱們就可以用啦。

2.2. lxml.etree登場(chǎng)

我們從網(wǎng)頁(yè)請(qǐng)求獲得的數(shù)據(jù)繁雜,其中只有一部分是我們真正想得到的數(shù)據(jù),例如我們從天氣的網(wǎng)站中查看北京的天氣,只有下圖中使我們想要得到的,我們?nèi)缛绾翁崛∧?這就要用到lxml.etree。

整個(gè)代碼中只有一小部分我們想要的信息,我們發(fā)現(xiàn)想要的天氣、溫度啊都在“class='weather_info'”這一層級(jí)下,那這就好辦了。我們?cè)谡?qǐng)求的代碼的后面加上:

 
 
 
  1. html_obj = etree.HTML(html) 
  2. html_data = html_obj.xpath("http://d1[@class='weather_info']//text()") 

我們print(html_data)一下看看提取是不是我們想要的數(shù)據(jù)。

發(fā)現(xiàn)連網(wǎng)頁(yè)中換行符啊什么的也都提取出來(lái)了,還有,別忘了,提取出來(lái)的是列表哦。我們還要做一下處理。

 
 
 
  1. word = "歡迎使用天氣播報(bào)助手" 
  2. for data in html_data: 
  3.     word += data 

處理完我們打印一下看看,嗯,我們想要的都有了。不過(guò)還多了一個(gè)[切換城市],我們精益求精,最后把這個(gè)最后再去掉。

2.3. 把結(jié)果說(shuō)出來(lái)

我們想要的數(shù)據(jù)都在word變量里啦,現(xiàn)在就讓他讀出來(lái),用pyttsx3這個(gè)庫(kù),

 
 
 
  1. ptt = pyttsx3.init() 
  2. ptt.say(word) 
  3. ptt.runAndWait() 

好的,現(xiàn)在都已完成。 我們一步一步都摸索過(guò)來(lái),現(xiàn)在整合在一起,最后播放效果還是不錯(cuò)的,這是一次很美好的爬蟲之旅,期待下次爬取!


當(dāng)前名稱:用Python爬取天氣并且語(yǔ)言播報(bào)
URL網(wǎng)址:http://m.5511xx.com/article/cccdjsp.html