新聞中心
前言

創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站、網(wǎng)站重做改版、獻縣網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、H5頁面制作、商城網(wǎng)站定制開發(fā)、集團公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為獻縣等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
最近我想在網(wǎng)站上下載幾首音樂放到我的u盤里聽,但是上網(wǎng)上一找,各大音樂網(wǎng)站下載歌曲(尤其是好聽的歌曲)都需要vip。
對于像我這樣的窮人來說,肯定是不會花幾十塊錢去下載幾首音樂啦,而且作為程序員,充錢去下載音樂那也是不可能的,于是我花了一天時間,上網(wǎng)找了各種資料來學習一下怎樣才能不花錢白嫖到網(wǎng)站上的音樂。
當然,方法還是有很多種的,最后我還是選擇了一種最簡單,最方便的一種方法: python爬蟲。下面,我就跟大家分享一下我在用python爬蟲時遇到的坑。
下面,我以爬取某易云音樂為例,介紹一下我時如何學習python爬蟲的:
思路:
- 音樂從哪里來?---網(wǎng)站的服務(wù)器里
- 怎么從網(wǎng)址里得到音樂?---向網(wǎng)站發(fā)起網(wǎng)絡(luò)請求
- 刪選音樂文件
- 下載音樂文件
具體實現(xiàn)
1.引入發(fā)送網(wǎng)絡(luò)請求的第三方庫
- import requests # 發(fā)送網(wǎng)絡(luò)請求的第三方庫
安裝方法
- pip install requests
2.引入數(shù)據(jù)解析第三方庫
- from lxml import etree # 數(shù)據(jù)解析第三方庫
安裝方法
- pip install lxml
3.某易云音樂網(wǎng)站列表url為'https://music.163.com/#/discover/toplist?id=3778678'
- url = 'https://music.163.com/#/discover/toplist?id=3778678'
4.發(fā)送請求獲取頁面數(shù)據(jù)
- response = requests.get(urlurl=url) # 請求頁面數(shù)據(jù)
5.解析數(shù)據(jù)
- html=etree.HTML(response.text) # 解析頁面數(shù)據(jù)
6.獲取所有歌曲標簽集合( a標簽 )
- id_list = html.xpath('//a[contains(@href,"song?")]') # 所有歌曲id集合
7.下載歌曲
- base_url = 'http://music.163.com/song/media/outer/url?id=' # 下載音樂網(wǎng)址前綴
- # 下載音樂url = 網(wǎng)址前綴 + 音樂id
- for data in id_list:
- href = data.xpath('./@href')[0]
- music_id = href.split('=')[1] # 音樂id
- music_url = base_url + music_id # 下載音樂url
- music_name = data.xpath('./text()')[0] # 下載音樂名稱
- music = requests.get(url = music_url)
- # 將下載的音樂以文件形式保存下來
- with open('./music/%s.mp3' % music_name, 'wb') as file:
- file.write(music.content)
- print('<%s>下載成功' % music_name)
遇到的坑
以上的方法我是從一個視頻里學到的,那個視頻是半年前出的,可能當時這種方法還好使,但是今天我在用這種方法下載音樂文件的時候突然就報錯了。
首先,編輯器報錯找不到 music_name 和 music_id ,我仔細一看,獲取的id_list集合里(也就是標簽集合里)的id根本不是id,是代碼,估計在這里音樂網(wǎng)站也做了相應(yīng)的反扒機制。
其次,我自己在網(wǎng)站里找到了一首音樂獲取了它的id并把id賦值給music_id,結(jié)果當用外鏈下載音樂時報錯460,顯示網(wǎng)絡(luò)擁擠,估計下載音樂的網(wǎng)址也不好使了。
- base_url = 'http://music.163.com/song/media/outer/url?id='
- music_id = '1804320463.mp3'
- music_url = base_url + music_id
- music = requests.get(url=music_url)
- print(music.text)
{"msg":"網(wǎng)絡(luò)太擁擠,請稍候再試!","code":-460,"message":"網(wǎng)絡(luò)太擁擠,請稍候再試!"}
最后,我打印出music_url,點擊進去,還是可以聽歌和下載的,不知道這是為什么了
- base_url = 'http://music.163.com/song/media/outer/url?id='
- music_id = '1804320463.mp3'
- music_url = base_url + music_id
- # music = requests.get(url=music_url)
- print(music_url)
music.163.com/song/media/…
總結(jié)
現(xiàn)在的網(wǎng)站技術(shù)更新太快,很多網(wǎng)站都有了高級反爬機制,畢竟嘛,有些東西還是不能隨隨便便就給你的,我寫這篇文章主要是跟大家分享一下我學習python爬蟲時的一些經(jīng)驗,同時,我也想請教各位大神,像遇到了我這種問題了,我應(yīng)該怎么辦才能將這個網(wǎng)站的音樂文件爬到我的本地電腦里,還請各大神指點一二。
文章題目:利用Python爬蟲爬取網(wǎng)站音樂遇到的坑
路徑分享:http://m.5511xx.com/article/dpsoggi.html


咨詢
建站咨詢
