前言
最近在做監控相關的配套設施,發現很多指令碼都是基於Python的。很早之前就聽說其大名,人生苦短,我學Python,這並非一句戲言。隨著人工智慧、機器學習、深度學習的崛起,目前市面上大部分的人工智慧的程式碼 大多使用Python 來編寫。所以人工智慧時代,是時候學點Python了。
基本環境配置
Python3
PyCharm
實現步驟
以妹子圖為例,其實很簡單,分以下四步:
獲取首頁的頁碼數,並建立與頁碼對應的資料夾
獲取頁面的欄目地址
進入欄目,獲取欄目頁碼數(每個欄目下有多張圖片,分頁顯示)
獲取到欄目下對用標籤中的圖片並下載
注意事項
爬取過程中,還需要注意以下幾點,可能對你有所幫助:
1)導庫,其實就類似於Java中框架或者是工具類,底層都被封裝好了
2)定義方法函式,一個爬蟲可能會幾百行,所以儘量不要寫成一坨
3)定義全域性變數
4)防盜鏈
5)切換版本
6)異常捕獲
程式碼實現(完整原始碼關注獲取地址)
下面,請小夥伴們睜大眼睛,雞凍人心的套圖時刻來了。
總結
其實指令碼很簡單,從配置環境、安裝整合開發環境、編寫指令碼到整個指令碼順利執行,差不多花費了四五個小時,最終指令碼一根筋的執行。限於伺服器頻寬以及配置的影響,17G的圖差不多下載了三四個小時,至於剩下的83G,小夥伴們自行下載吧。