top of page

Python-網頁改版之爬蟲失效

獻給正在學習Python爬蟲階段的學員

學習Python爬蟲階段的同學們往往會因為網站頁面不定時更新造成資料無法爬取

是的,頁面更新是個令人頭痛的問題!

但沒關係,我們教你如何克服爬蟲上會接觸到問題的常見問題,為此有了這次的達內報報!


當我們無法參照老師所使用的正則表達式或XPath來操作練習時怎麼辦?

只需修改老師課程中所使用的XPath或正則表達式即可解決😊


(基本課堂上程式碼,如果無法爬取,絕大部分原因是因為網頁改版了,導致 HTML 碼不一樣,所以正則表達式或是XPath會變得無法運作找到所要的目標內容,只要修改後就可以順利爬取)。


示範網站:電影天堂
  • 課內影片的網頁畫面(名稱&下載連結):


  • 課內影片的網頁元素畫面(名稱&下載連結):


  • 現在我們想要獲取電影名稱,和下載連結

依照此標籤,我們可以知道標籤為<td style="WODR-WRAP:break-word"

而我們想要獲取 href 的連結,所以想獲取他的正則表達式為:


  • 但因為網頁改版,現在的網頁變成:


  • 所以現在網頁程式碼改變為:


  • 可以發現標籤變成<a target="_blank" 而我們想要獲取新的 href 的連結依照新的標籤,我們可以知道,想獲取他的正則表達式為:


  • 所以更改完正則表達式後

  • 其他的內容就照著上課時所教導的操作,就可以順利爬取電影名稱和連結了!


結語:

依照標籤不同,同學在爬蟲時要適時地修改標籤~

*不要直接拿老師上課時使用標籤,而是依據網頁來編寫關於標籤的部分*


以上,祝學習順心

73 次查看

相關文章

查看全部

Comments


bottom of page