selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

發佈於 4 則留言分類: 03 Python 爬蟲教學10 所有文章

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存爬取 首先在Google Compute Engine上安裝pip sudo apt-get install python3-pip 安裝selenium pip3 install selenium 安裝Chrome瀏覽器 sudo apt-get install chromium-driver 安 […]

gcp_python_coverphoto

【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式

發佈於 2 則留言分類: 03 Python 爬蟲教學10 所有文章

本篇介紹如何在GoogleCloudPlatform上架設Python爬蟲程式:從GCP建立虛擬機、上傳Python檔案、在GCP執行Python爬蟲程式,和最後在GCP上設定自動排程每日執行。當初在研究GCP上花費不了少時間,所以寫了這篇文章供大家參考,而如果你是想在AWS雲端上架設Python爬蟲程式的話,可以參考這篇:在AWS雲端伺服器上利用 Python Selenium 擷取網站資料。 第一步:建立GCP虛擬機 建立GCP建立虛擬機的步驟可以參考這篇:[教學] 如何在 Google Cloud Platform 架設免費伺服器,按照流程建立好後,來到VM執行個體並點擊SSH,即可進入虛擬的終端機內。 第二部:上傳Python爬蟲檔案至GCP 點擊SSH後進入虛擬終端機,再點右上角齒 […]

python scrapy cover photo

[爬蟲筆記] Python Scrapy 爬蟲教學:實作 PTT 資料爬取

發佈於 發佈留言分類: 03 Python 爬蟲教學10 所有文章

此次實作 Python 爬蟲框架 Scrapy 來爬取 Ptt 100 頁的內容。從 Scrapy 安裝、Item 設置、Spiders 編寫到 Scrapy CSS 和 Xpath 抓取資料,詳細記錄 Scrapy 基礎入門步驟教學,提供大家參考,希望此篇爬蟲筆記有幫助到想學習 Scrapy 的朋友。 一、環境設置 1.安裝 Scrapy pip install scrapy 2.建立第一個 Project scrapy startproject ptt 輸入後會自動建立一些文件和設定,資料結構如下: scrapy.cfg:基礎設置 items.py:抓取條目的結構定義 middlewares.py:中間件定義 pipelines.py:管道定義,用於抓取數據後的處理 settings.p […]