python_selenium_error

【爬蟲筆記】Python Selenium Webdriver異常問題集

發佈於 1 則留言分類: 03 Python 爬蟲教學10 所有文章

在開發 Python Selenium 爬蟲遇到了不少坑,花了很多時間找問題和解決方法,所以記錄一下,希望遇到相同問題的人有幫助 Python Selenium Webdriver 異常記錄 發生 selenium.common.exceptions.TimeoutException 問題: 可以在 driver 這邊設定 timeout 超時時間 driver.set_page_load_timeout(110) try: “do something”except TimeoutException as e: driver.close() driver.quit() time.sleep(10) break  發生 ConnectionResetError: [Errno 104 […]

selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

發佈於 4 則留言分類: 03 Python 爬蟲教學10 所有文章

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存爬取 首先在Google Compute Engine上安裝pip sudo apt-get install python3-pip 安裝selenium pip3 install selenium 安裝Chrome瀏覽器 sudo apt-get install chromium-driver 安 […]

[爬蟲筆記] Python Selenium 爬蟲教學:實作商品庫存爬取

發佈於 發佈留言分類: 03 Python 爬蟲教學10 所有文章

利用 Python 寫 Selenium 爬蟲來爬取網站的商品狀態,其中使用到 Selenium 等待網頁載入完畢,BeautifulSoup 解析爬取資料,和 Smtplib 將結果寄信給我和同事,最後用 Linux 內建的 Crontab 排程於每日早上執行這件事情,就這樣每天進公司前就可以在信箱裡面看到這份資料了~ 第一步:Python Selenium自動開啟瀏覽器! 這部分原本是使用 implicitly_wait(): 隱式等待的方法,但因為 WebDriver 常常等到超出時間設定造成回拋異常,所以這邊改成先讓他沈睡 5 秒鐘,再進行爬取資料!   第二步:BeautifulSoup解析網頁 這部分嘗試了 findall() 但最後還是選擇用 selcet() 將 # […]