【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

selenium_coverphoto

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友!

如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章:

首先在Google Compute Engine上安裝pip

安裝selenium

安裝Chrome瀏覽器

安裝Chrome Driver

  1. 自動安裝Chrome Driver
    • 讓webdriver_manager自動幫你在主機內安裝Chrome Driver的穩定版本,並且會設定好路徑和權限
    • 但是在啟動driver的時候要用ChromeDriverManager().install()來告知路徑

      2. 如果是手動安裝Chrome Driver的朋友

    • 首先到 http://chromedriver.chromium.org/ 下載最新的Chrome版本Driver,並上傳到VM虛擬主機上,如果這時候運行程式的話會噴出permission denied的權限錯誤,這時候在輸入以下指令就會可以執行囉
    • 記得要把剛剛的ChromeDriverManager().install()換成’位置/chromedriver’

以上安裝完就可以運行看看,如果print出google的網頁標題的話,恭喜你代表就成功囉!

以下是我通常還會安裝的library

  • bs4 (美麗的湯)
  • fake_useragent (這可以自動產生useragent)
  • threadpool (用於多線程池)
  • mysql-connector 和 sqlalchemy (是串接Mysql資料庫)

最後相關延伸閱讀:

▍關於與 Concurrency Programming 相關文章,可以參考:

▍關於 Async IO 相關文章,可以參考:

那麼有關於【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲 的介紹就到這邊告一個段落囉!有任何問題可以在以下留言~

有關 Max行銷誌的最新文章,都會發佈在 Max 的 Facebook 粉絲專頁,如果想看最新更新,還請您按讚或是追蹤唷!