百行程式碼,python爬取小姐姐網100G套圖,別流鼻血哦,身體重要!

百行程式碼,python爬取小姐姐網100G套圖,別流鼻血哦,身體重要!

前言

最近在做監控相關的配套設施,發現很多指令碼都是基於Python的。很早之前就聽說其大名,人生苦短,我學Python,這並非一句戲言。隨著人工智慧、機器學習、深度學習的崛起,目前市面上大部分的人工智慧的程式碼 大多使用Python 來編寫。所以人工智慧時代,是時候學點Python了。

基本環境配置

Python3

PyCharm

實現步驟

以妹子圖為例,其實很簡單,分以下四步:

獲取首頁的頁碼數,並建立與頁碼對應的資料夾

獲取頁面的欄目地址

進入欄目,獲取欄目頁碼數(每個欄目下有多張圖片,分頁顯示)

獲取到欄目下對用標籤中的圖片並下載

注意事項

爬取過程中,還需要注意以下幾點,可能對你有所幫助:

1)導庫,其實就類似於Java中框架或者是工具類,底層都被封裝好了

2)定義方法函式,一個爬蟲可能會幾百行,所以儘量不要寫成一坨

3)定義全域性變數

4)防盜鏈

5)切換版本

6)異常捕獲

百行程式碼,python爬取小姐姐網100G套圖,別流鼻血哦,身體重要!

程式碼實現(完整原始碼關注獲取地址)

百行程式碼,python爬取小姐姐網100G套圖,別流鼻血哦,身體重要!

下面,請小夥伴們睜大眼睛,雞凍人心的套圖時刻來了。

百行程式碼,python爬取小姐姐網100G套圖,別流鼻血哦,身體重要!

總結

其實指令碼很簡單,從配置環境、安裝整合開發環境、編寫指令碼到整個指令碼順利執行,差不多花費了四五個小時,最終指令碼一根筋的執行。限於伺服器頻寬以及配置的影響,17G的圖差不多下載了三四個小時,至於剩下的83G,小夥伴們自行下載吧。