python網頁爬蟲開發,下載表特板熱門文章中的圖片存於本地資料夾。

繼上篇文章"PTT爬蟲 – Marvel篇",本篇介紹怎麼爬取表特板的圖片,並下載至本地資料夾。

讀取表特板與marvel板最大的不同除了一個是存圖片一個是文字之外,還有就是表特板需要紀錄滿18歲的cookie,所以在發送request時,需把cookie "over18"的值設為"1"。

引用python套件

  • BeautifulSoup
    用於解析html DOM
    pip3 install beautifulsoup4
  • requests
    用於對網址發出http requests
    pip3 install requests
  • urllib
    透過URL下載圖片。
    pip3 install urllib3

程式碼

  • 架構
  • 程式碼解析
  • Demo

架構

程式碼解析

Function解析

– def parsePage(pageURL)

– def findNextPageURL(HTMLdata)

– def findAllTitle(HTMLdata)

– def loadArticle(data)

– def save(img_urls, title)

– def fixFilePath(oriPath)

Demo

  • 資料夾內容
    beauty_result

  • 圖片內容
    beauty_result_jpg

最後修改日期: 2021-04-01

留言

撰寫回覆或留言

發佈留言必須填寫的電子郵件地址不會公開。