日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
一篇文章教會你使用Python定時抓取微博評論

【Part1——理論篇】

我們注重客戶提出的每個要求,我們充分考慮每一個細節(jié),我們積極的做好成都網(wǎng)站建設(shè)、網(wǎng)站制作服務(wù),我們努力開拓更好的視野,通過不懈的努力,成都創(chuàng)新互聯(lián)公司贏得了業(yè)內(nèi)的良好聲譽,這一切,也不斷的激勵著我們更好的服務(wù)客戶。 主要業(yè)務(wù):網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)站設(shè)計,微信小程序,網(wǎng)站開發(fā),技術(shù)開發(fā)實力,DIV+CSS,PHP及ASP,ASP.Net,SQL數(shù)據(jù)庫的技術(shù)開發(fā)工程師。

試想一個問題,如果我們要抓取某個微博大V微博的評論數(shù)據(jù),應(yīng)該怎么實現(xiàn)呢?最簡單的做法就是找到微博評論數(shù)據(jù)接口,然后通過改變參數(shù)來獲取最新數(shù)據(jù)并保存。首先從微博api尋找抓取評論的接口,如下圖所示。

但是很不幸,該接口頻率受限,抓不了幾次就被禁了,還沒有開始起飛,就涼涼了。

接下來小編又選擇微博的移動端網(wǎng)站,先登錄,然后找到我們想要抓取評論的微博,打開瀏覽器自帶流量分析工具,一直下拉評論,找到評論數(shù)據(jù)接口,如下圖所示。

之后點擊“參數(shù)”選項卡,可以看到參數(shù)為下圖所示的內(nèi)容:

可以看到總共有4個參數(shù),其中第1、2個參數(shù)為該條微博的id,就像人的身份證號一樣,這個相當(dāng)于該條微博的“身份證號”,max_id是變換頁碼的參數(shù),每次都要變化,下次的max_id參數(shù)值在本次請求的返回數(shù)據(jù)中。

【Part2——實戰(zhàn)篇】

有了上文的基礎(chǔ)之后,下面我們開始擼代碼,使用Python進行實現(xiàn)。

1、首先區(qū)分url,第一次不需要max_id,第二次需要用第一次返回的max_id。

2、請求的時候需要帶上cookie數(shù)據(jù),微博cookie的有效期比較長,足夠抓一條微博的評論數(shù)據(jù)了,cookie數(shù)據(jù)可以從瀏覽器分析工具中找到。

3、然后將返回數(shù)據(jù)轉(zhuǎn)換成json格式,取出評論內(nèi)容、評論者昵稱和評論時間等數(shù)據(jù),輸出結(jié)果如下圖所示。

4、為了保存評論內(nèi)容,我們要將評論中的表情去掉,使用正則表達式進行處理,如下圖所示。

5、之后接著把內(nèi)容保存到txt文件中,使用簡單的open函數(shù)進行實現(xiàn),如下圖所示。

6、重點來了,通過此接口最多只能返回16頁的數(shù)據(jù)(每頁20條),網(wǎng)上也有說返回50頁的,但是接口不同、返回的數(shù)據(jù)條數(shù)也不同,所以我加了個for循環(huán),一步到位,遍歷還是很給力的,如下圖所示。

7、這里把函數(shù)命名為job。為了能夠一直取出最新的數(shù)據(jù),我們可以用schedule給程序加個定時功能,每隔10分鐘或者半個小時抓1次,如下圖所示。

8、對獲取到的數(shù)據(jù),做去重處理,如下圖所示。如果評論已經(jīng)在里邊的話,就直接pass掉,如果沒有的話,繼續(xù)追加即可。

這項工作到此就基本完成了。

【Part3——總結(jié)篇】

這種方法雖然抓不全數(shù)據(jù),但在這種微博的限制條件下,也是一種比較有效的方法。

本文轉(zhuǎn)載自微信公眾號「 IT共享者」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系 IT共享者公眾號。


新聞名稱:一篇文章教會你使用Python定時抓取微博評論
當(dāng)前網(wǎng)址:http://m.5511xx.com/article/dhhjpos.html