【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式

gcp_python_coverphoto

本篇介紹如何在GoogleCloudPlatform上架設Python爬蟲程式:從GCP建立虛擬機、上傳Python檔案、在GCP執行Python爬蟲程式,和最後在GCP上設定自動排程每日執行。當初在研究GCP上花費不了少時間,所以寫了這篇文章供大家參考,而如果你是想在AWS雲端上架設Python爬蟲程式的話,可以參考這篇:在AWS雲端伺服器上利用 Python Selenium 擷取網站資料

第一步:建立GCP虛擬機

建立GCP建立虛擬機的步驟可以參考這篇:[教學] 如何在 Google Cloud Platform 架設免費伺服器,按照流程建立好後,來到VM執行個體並點擊SSH,即可進入虛擬的終端機內。

GCP_Python_step1
GCP_Python_step1

第二部:上傳Python爬蟲檔案至GCP

點擊SSH後進入虛擬終端機,再點右上角齒輪選擇上傳檔案,即可在GCP虛擬機內上傳Python檔案;上傳後路徑會是/home/a0025071/檔案名稱.py。

GCP_Python_step2
GCP_Python_step2

第三步:在GCP上執行Python爬蟲程式

在GCP終端機內首先輸入ls,查看檔案是否上傳成功;再輸入Python 檔名.py即可在GCP虛擬主機上開始執行Python爬蟲程式囉!

GCP_Python_step3
GCP_Python_step3

第四部:GCP上設定Crontab自動排程Python爬蟲程式

執行確認可以在GCP上執行Python爬蟲程式後,可以利用Crontab來自動排程Python爬蟲程式;

  • 輸入crontab -l 可以查看目前有在GCP排程的程式
  • 輸入crontab -r 可以刪除所有在GCP排程的程式
  • 輸入crontab -e 可以編輯目前正在GCP上排程的P程式
GCP_Python_step4
GCP_Python_step4

完成上述GCP上架設Python爬蟲程式的步驟後,接下來就只需要坐等爬蟲爬完後存入資料庫即可囉!

最後~

▍關於與 Concurrency Programming 相關其他文章,可以參考:

▍關於 Async IO 相關其他文章,可以參考:

那麼有關於【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 的介紹就到這邊告一個段落囉!有任何問題可以在以下留言~

有關 Max行銷誌的最新文章,都會發佈在 Max 的 Facebook 粉絲專頁,如果想看最新更新,還請您按讚或是追蹤唷!

在〈【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式〉中有 2 則留言

  1. 您好,可以請教一下嗎?
    我照上面的步驟,使用pip3完成selenium安裝,
    但執行python程式時,會出現ImportError: No module named selenium
    請問是哪裡還需要設定呢?

    1. HI,

      遇到這種情況,我猜是你執行時使用到版本 python2
      試試看使用 python3 main.py 來運行爬蟲

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *