本篇介紹如何在GoogleCloudPlatform上架設Python爬蟲程式:從GCP建立虛擬機、上傳Python檔案、在GCP執行Python爬蟲程式,和最後在GCP上設定自動排程每日執行。當初在研究GCP上花費不了少時間,所以寫了這篇文章供大家參考,而如果你是想在AWS雲端上架設Python爬蟲程式的話,可以參考這篇:在AWS雲端伺服器上利用 Python Selenium 擷取網站資料。
Table
第一步:建立GCP虛擬機
建立GCP建立虛擬機的步驟可以參考這篇:[教學] 如何在 Google Cloud Platform 架設免費伺服器,按照流程建立好後,來到VM執行個體並點擊SSH,即可進入虛擬的終端機內。
第二部:上傳Python爬蟲檔案至GCP
點擊SSH後進入虛擬終端機,再點右上角齒輪選擇上傳檔案,即可在GCP虛擬機內上傳Python檔案;上傳後路徑會是/home/a0025071/檔案名稱.py。
第三步:在GCP上執行Python爬蟲程式
在GCP終端機內首先輸入ls,查看檔案是否上傳成功;再輸入Python 檔名.py即可在GCP虛擬主機上開始執行Python爬蟲程式囉!
第四部:GCP上設定Crontab自動排程Python爬蟲程式
執行確認可以在GCP上執行Python爬蟲程式後,可以利用Crontab來自動排程Python爬蟲程式;
- 輸入crontab -l 可以查看目前有在GCP排程的程式
- 輸入crontab -r 可以刪除所有在GCP排程的程式
- 輸入crontab -e 可以編輯目前正在GCP上排程的P程式
完成上述GCP上架設Python爬蟲程式的步驟後,接下來就只需要坐等爬蟲爬完後存入資料庫即可囉!
最後~
▍關於與 Concurrency Programming 相關其他文章,可以參考:
- 【Python教學】淺談 Concurrency Programming
- 【Python教學】淺談 GIL & Thread-safe & Atomic
- 【Python教學】淺談 Multi-processing & Multi-threading 使用方法
- 【Python教學】淺談 Multi-processing pool 使用方法
▍關於 Async IO 相關其他文章,可以參考:
- 【Python教學】淺談 Coroutine 協程使用方法
- 【Python教學】Async IO Design Patterns 範例程式
- 【實戰篇】 解析 Python 之父寫的 web crawler 異步爬蟲
那麼有關於【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 的介紹就到這邊告一個段落囉!有任何問題可以在以下留言~
有關 Max行銷誌的最新文章,都會發佈在 Max 的 Facebook 粉絲專頁,如果想看最新更新,還請您按讚或是追蹤唷!
在〈【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式〉中有 2 則留言
您好,可以請教一下嗎?
我照上面的步驟,使用pip3完成selenium安裝,
但執行python程式時,會出現ImportError: No module named selenium
請問是哪裡還需要設定呢?
HI,
遇到這種情況,我猜是你執行時使用到版本 python2
試試看使用 python3 main.py 來運行爬蟲
留言功能已關閉。