【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行，環境設置的過程中不小心踩了不少坑，所以決定記錄下這篇，希望提供給之後想在GCP上設定selenium爬蟲的朋友！

如果對GCP或是selenium不熟悉的朋友，建議可以先閱讀以下兩篇文章：

首先在Google Compute Engine上安裝pip

1	sudo apt-get install python3-pip

安裝selenium

1	pip3 install selenium

安裝Chrome瀏覽器

1	sudo apt-get install chromium-driver

安裝Chrome Driver

自動安裝Chrome Driver

- 讓webdriver_manager自動幫你在主機內安裝Chrome Driver的穩定版本，並且會設定好路徑和權限

1	pip3 install webdriver_manager

- 但是在啟動driver的時候要用ChromeDriverManager().install()來告知路徑

from selenium import webdriver from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManager opts = Options() opts.add_argument('--headless') #無頭chrome opts.add_argument('--disable-gpu') driver = webdriver.Chrome(executable_path=ChromeDriverManager().install(),chrome_options=opts) driver.get('https://www.google.com/') print(drive.title) driver.close()

2. 如果是手動安裝Chrome Driver的朋友

- 首先到 http://chromedriver.chromium.org/ 下載最新的Chrome版本Driver，並上傳到VM虛擬主機上，如果這時候運行程式的話會噴出permission denied的權限錯誤，這時候在輸入以下指令就會可以執行囉

1	$ chmod a+x chromedriver

- 記得要把剛剛的ChromeDriverManager().install()換成’位置/chromedriver’

from selenium import webdriver from selenium.webdriver.chrome.options import Options opts = Options() opts.add_argument('--headless') #無頭chrome opts.add_argument('--disable-gpu') driver = webdriver.Chrome(executable_path='位置/chromedriver',chrome_options=opts) driver.get('https://www.google.com/') print(drive.title) driver.close()

以上安裝完就可以運行看看，如果print出google的網頁標題的話，恭喜你代表就成功囉！

以下是我通常還會安裝的library

1	pip3 install bs4 fake_useragent threadpool mysql-connector sqlalchemy

bs4 (美麗的湯)
fake_useragent (這可以自動產生useragent)
threadpool (用於多線程池)
mysql-connector 和 sqlalchemy (是串接Mysql資料庫)

最後相關延伸閱讀：

▍關於與 Concurrency Programming 相關文章，可以參考：

▍關於 Async IO 相關文章，可以參考：

那麼有關於【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲的介紹就到這邊告一個段落囉！有任何問題可以在以下留言～

有關 Max行銷誌的最新文章，都會發佈在 Max 的 Facebook 粉絲專頁，如果想看最新更新，還請您按讚或是追蹤唷！