A03 - 爬蟲案例:網易雲&百度貼吧

返回主頁

📄目錄

1 網易雲

1.1 獲取單張圖片

python-logo

1.2 獲取單首歌曲

python-logo

打開音樂播放的頁面(https://music.163.com/#/song?id=166282)之後,右鍵點選檢查,選擇Network,更新頁面,之後選擇Type為Media的項目(單曲一般只有一個),單擊並選擇Headers頁面,就是Request URL資源所在的url。

例子中的url下載的.m4a檔案放在同目錄下,檔案名為163music_01.m4a

1.3 獲取單個MV

python-logo

打開MV頁面(https://music.163.com/#/mv?id=10875220),右鍵點選檢查,選擇Network,更新頁面,尋找size最大的資源(一般就是想要下載的MV,在Name單擊對應資源查看資訊(可以複制url在新頁面打開以確認是否正確)

例子中的url下載的.mp4檔案放在同目錄下,檔案名為163music_01.mp4

2 百度貼吧

2.1 單頁獲取案例

python-logo

獲取的頁面相對於A03.py,放在同目錄的resourse文件夾中,命名為tieba_01.html

2.2 貼吧翻頁

以下是在百度貼吧搜索「维多利亚3」的前4頁(前兩個url都是第一頁,區別在於,第一個是搜索結果,第二個是從第2頁或之後翻回首頁搜索結果。

規律:

分析規律可以得知,以0為起點,每一頁的pn會加50。

python-logo

獲取的頁面相對於A03.py,放在同目錄的resourse文件夾中,根據保存頁數的要求而有變動,部分頁面偶而會因為反爬而爬取失敗。

2.3 貼吧翻頁爬蟲改寫為面向對象

python-logo

 

導航連結:

目的地超連結
首頁返回主頁
Python學習Python學習
上一篇A02 - Requests庫基本使用
下一篇A04 - Requests發送Post請求