python_selenium_error

【爬蟲筆記】Python Selenium Webdriver異常問題集

在開發 Python Selenium 爬蟲遇到了不少坑,花了很多時間找問題和解決方法,所以記錄一下,希望遇到相同問題的人有幫助 Python Selenium Webdriver 異常記錄 發生 selenium.common.exceptions.TimeoutException 問題: 可以在 driver 這邊設定 timeout 超時時間

 發生 ConnectionResetError: [Errno 104] Connection reset by peer 問題:

發生 […]

閱讀全文
selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存爬取 首先在Google Compute Engine上安裝pip

安裝selenium

安裝Chrome瀏覽器 [crayon-6391ad77c4192552771 […]

閱讀全文

[爬蟲筆記] Python Selenium 爬蟲教學:實作商品庫存爬取

利用 Python 寫 Selenium 爬蟲來爬取網站的商品狀態,其中使用到 Selenium 等待網頁載入完畢,BeautifulSoup 解析爬取資料,和 Smtplib 將結果寄信給我和同事,最後用 Linux 內建的 Crontab 排程於每日早上執行這件事情,就這樣每天進公司前就可以在信箱裡面看到這份資料了~ 第一步:Python Selenium自動開啟瀏覽器! 這部分原本是使用 implicitly_wait(): 隱式等待的方法,但因為 WebDriver 常常等到超出時間設定造成回拋異常,所以這邊改成先讓他沈睡 5 秒鐘,再進行爬取資料!   第二步:BeautifulSoup解析網頁 這部分嘗試了 findall() 但最後還是選擇用 selcet() 將 # […]

閱讀全文