top of page

Python5.0-第四階段-課內專案

貓眼電影網爬蟲程式

使用Scrapy爬蟲框架爬取貓眼電影排行榜,並將爬取的資料放進資料庫達成數據持久化效果

通過這個專案,同學可以擁有掌握Scrapy爬蟲框架構建技巧以及資料庫CRUD技巧。


  • Scrapy爬蟲程式碼


  • 存入MongoDB資料庫


  • 爬蟲程式執行指令


  • 網頁資料爬取


  • 網頁資料下載


貓眼電影網爬蟲終端機程式運行影片:


動態爬蟲 - 招聘網站

此專案是將招聘網站上的招聘資訊(比如騰訊招聘、拉勾網等)

通過爬蟲技術抓取下來,拿到這些招聘資訊後我們就可以定向分析不同城市、不同職位的分佈情況,以及各個職位的薪資範圍等等

如果你是個人可以定向尋找適合自己的高薪職位,如果你是公司可以定向投放招聘資訊。

  • 掌握Ajax動態載入資料抓取

  • 瞭解數據抓取原理、熟悉常用抓包工具

  • 能應用動態載入爬蟲技術解決實際工程問題


Selenium爬蟲

此專案是利用強大的Selenium工具來模擬我們人類打開流覽器流覽網頁的行為

抓取某電商網站所有商品資料,比如抓取所有手機商品資訊,以及衣服、包包等相關資料資訊,既作為公司專案的測試資料,也可以做相關價格及商家的資料分析。

  • 掌握基於selenium的爬蟲技術

  • 瞭解selenium的常用方法以及抓取原理

  • 能應用selenium爬蟲技術解決實際問題


分散式爬蟲

之前是單兵作戰,即一台伺服器進行資料抓取

現在是規模化軍隊作戰,多台伺服器協同抓取

能夠極大提高資料抓取的效率,非常適合超大規模的資料獲取

整個互聯網上的資料盡收眼底。

  • 掌握分散式爬蟲原理及部署實現

  • 能應用分散式爬蟲技術實現規模化資料抓取

8 次查看

相關文章

查看全部

Comments


bottom of page