日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Python爬蟲音頻數(shù)據(jù)

一:前言

為綏棱等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù),及綏棱網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、綏棱網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!

本次爬取的是喜馬拉雅的熱門欄目下全部電臺(tái)的每個(gè)頻道的信息和頻道中的每個(gè)音頻數(shù)據(jù)的各種信息,然后把爬取的數(shù)據(jù)保存到mongodb以備后續(xù)使用。這次數(shù)據(jù)量在70萬左右。音頻數(shù)據(jù)包括音頻下載地址,頻道信息,簡介等等,非常多。

昨天進(jìn)行了人生中***次面試,對方是一家人工智能大數(shù)據(jù)公司,我準(zhǔn)備在這大二的暑假去實(shí)習(xí),他們就要求有爬取過音頻數(shù)據(jù),所以我就來分析一下喜馬拉雅的音頻數(shù)據(jù)爬下來。目前我還在等待三面中,或者是通知最終面試消息。 (因?yàn)槟艿玫揭欢隙ǎ还艹晒εc否都很開心)

二:運(yùn)行環(huán)境

  • IDE:Pycharm 2017
  • Python3.6
  • pymongo 3.4.0
  • requests 2.14.2
  • lxml 3.7.2
  • BeautifulSoup 4.5.3

三:實(shí)例分析

1.首先進(jìn)入這次爬取的主頁面 http://www.ximalaya.com/dq/all/ ,可以看到每頁12個(gè)頻道,每個(gè)頻道下面有很多的音頻,有的頻道中還有很多分頁。抓取計(jì)劃:循環(huán)84個(gè)頁面,對每個(gè)頁面解析后抓取每個(gè)頻道的名稱,圖片鏈接,頻道鏈接保存到mongodb。

熱門頻道

2.打開開發(fā)者模式,分析頁面,很快就可以得到想要的數(shù)據(jù)的位置。下面的代碼就實(shí)現(xiàn)了抓取全部熱門頻道的信息,就可以保存到mongodb中。 

   

分析頻道

3.下面就是開始獲取每個(gè)頻道中的全部音頻數(shù)據(jù)了,前面通過解析頁面獲取到了美國頻道的鏈接。

比如我們進(jìn)入 http://www.ximalaya.com/6565682/album/237771 這個(gè)鏈接后分析頁面結(jié)構(gòu)。可以看出每個(gè)音頻都有特定的ID,這個(gè)ID可以在一個(gè)div中的屬性中獲取。使用split()和int()來轉(zhuǎn)換為單獨(dú)的ID。

頻道頁面分析

4.接著點(diǎn)擊一個(gè)音頻鏈接,進(jìn)入開發(fā)者模式后刷新頁面然后點(diǎn)擊XHR,再點(diǎn)擊一個(gè)json鏈接可以看到這個(gè)就包括這個(gè)音頻的全部詳細(xì)信息。

音頻頁面分析

5.上面只是對一個(gè)頻道的主頁面解析全部音頻信息,但是實(shí)際上頻道的音頻鏈接是有很多分頁的。 

  

分頁

6.全部代碼

完整代碼地址 github.com/rieuse/learnPython 

7.如果改成異步的形式可以快一點(diǎn),只需要修改成下面這樣就行了。我試了每分鐘要比普通的多獲取近100條數(shù)據(jù)。這個(gè)源代碼也在github中。 

異步

五:總結(jié)

這次抓取的數(shù)據(jù)量在70萬左右,這些數(shù)據(jù)后續(xù)可以進(jìn)行很多研究,比如播放量排行榜、時(shí)間區(qū)段排行、頻道音頻數(shù)量等等。后續(xù)我將繼續(xù)學(xué)習(xí)使用科學(xué)計(jì)算和繪圖工具來進(jìn)行數(shù)據(jù)分析,清洗的工作。 


本文標(biāo)題:Python爬蟲音頻數(shù)據(jù)
網(wǎng)頁路徑:http://m.5511xx.com/article/coigjhe.html