top of page

此網站是使用

網站幫手設計的。立即用來製作您的網站吧！立即開始

搜尋

Python-網頁改版之爬蟲失效

Tw Tedu
2021年3月25日
讀畢需時 2 分鐘

已更新：2021年3月28日

獻給正在學習Python爬蟲階段的學員

學習Python爬蟲階段的同學們往往會因為網站頁面不定時更新造成資料無法爬取

是的，頁面更新是個令人頭痛的問題！

但沒關係，我們教你如何克服爬蟲上會接觸到問題的常見問題，為此有了這次的達內報報！

當我們無法參照老師所使用的正則表達式或XPath來操作練習時怎麼辦?

只需修改老師課程中所使用的XPath或正則表達式即可解決😊

(基本課堂上程式碼,如果無法爬取,絕大部分原因是因為網頁改版了，導致 HTML 碼不一樣，所以正則表達式或是XPath會變得無法運作找到所要的目標內容,只要修改後就可以順利爬取)。

示範網站：電影天堂

課內影片的網頁畫面(名稱&下載連結):

課內影片的網頁元素畫面(名稱&下載連結):

現在我們想要獲取電影名稱,和下載連結

依照此標籤,我們可以知道標籤為<td style="WODR-WRAP:break-word"

而我們想要獲取 href 的連結,所以想獲取他的正則表達式為:

但因為網頁改版,現在的網頁變成:

所以現在網頁程式碼改變為：

可以發現標籤變成<a target="_blank" 而我們想要獲取新的 href 的連結依照新的標籤,我們可以知道,想獲取他的正則表達式為:

所以更改完正則表達式後
其他的內容就照著上課時所教導的操作，就可以順利爬取電影名稱和連結了！

結語：

依照標籤不同，同學在爬蟲時要適時地修改標籤～

＊不要直接拿老師上課時使用標籤,而是依據網頁來編寫關於標籤的部分＊

以上，祝學習順心

相關文章

微信小程序

微信小程序

設計素材網&資料補充

設計素材網&資料補充

【Tensorflow_03】read_data_sets is not defined 解決方案

【Tensorflow_03】read_data_sets is not defined 解決方案

留言

bottom of page