貓眼電影網爬蟲程式
使用Scrapy爬蟲框架爬取貓眼電影排行榜,並將爬取的資料放進資料庫達成數據持久化效果
通過這個專案,同學可以擁有掌握Scrapy爬蟲框架構建技巧以及資料庫CRUD技巧。

Scrapy爬蟲程式碼

存入MongoDB資料庫

爬蟲程式執行指令

網頁資料爬取

網頁資料下載

貓眼電影網爬蟲終端機程式運行影片:
動態爬蟲 - 招聘網站
此專案是將招聘網站上的招聘資訊(比如騰訊招聘、拉勾網等)
通過爬蟲技術抓取下來,拿到這些招聘資訊後我們就可以定向分析不同城市、不同職位的分佈情況,以及各個職位的薪資範圍等等
如果你是個人可以定向尋找適合自己的高薪職位,如果你是公司可以定向投放招聘資訊。

掌握Ajax動態載入資料抓取
瞭解數據抓取原理、熟悉常用抓包工具
能應用動態載入爬蟲技術解決實際工程問題
Selenium爬蟲
此專案是利用強大的Selenium工具來模擬我們人類打開流覽器流覽網頁的行為
抓取某電商網站所有商品資料,比如抓取所有手機商品資訊,以及衣服、包包等相關資料資訊,既作為公司專案的測試資料,也可以做相關價格及商家的資料分析。

掌握基於selenium的爬蟲技術
瞭解selenium的常用方法以及抓取原理
能應用selenium爬蟲技術解決實際問題
分散式爬蟲
之前是單兵作戰,即一台伺服器進行資料抓取
現在是規模化軍隊作戰,多台伺服器協同抓取
能夠極大提高資料抓取的效率,非常適合超大規模的資料獲取
整個互聯網上的資料盡收眼底。

掌握分散式爬蟲原理及部署實現
能應用分散式爬蟲技術實現規模化資料抓取
Comments