python_selenium_driver

【爬蟲教學】如何讓 Selenium 多線池執行時 driver 不會重複開啟

發佈於 2 則留言分類: 03 Python 爬蟲教學10 所有文章

本篇主要紀錄使用 Selenium 搭配 Multi-threading Pool (多執行緒池/多線程池) 遇到 web driver 會重複開啟和關閉的問題,導致效率大幅下降,解決方法是使用 threading.local 將 driver 變數存 local 來判斷是否有需要重複開啟 使用 threading.local() 利用 threading.local() 的方法將 driver […]

multithreadpool

【Python教學】淺談 Multi-threading Pool 使用方法

發佈於 發佈留言分類: 03 Python 爬蟲教學10 所有文章

先來看一下執行 Multi-threading Pool (多執行緒池/多線程池) 後,可以將每一個頁面原本需要等待 15 s 才能載入完畢並爬取的頁面,降至 3.9 秒 (10 threading pool) ~ 2.28 秒(25 threading pool),但是多線程池的使用要非常留意 tread-safe 問題 ,不小心就會像上面圖片一樣,想像中大家是各自完成任務,但實際上是 […]

python_selenium_error

【爬蟲筆記】Python Selenium Webdriver異常問題集

發佈於 1 則留言分類: 03 Python 爬蟲教學10 所有文章

在開發 Python Selenium 爬蟲遇到了不少坑,花了很多時間找問題和解決方法,所以記錄一下,希望遇到相同問題的人有幫助 Python Selenium Webdriver 異常記錄 發生 selenium.common.exceptions.TimeoutException 問題: 可以在 driver 這邊設定 timeout 超時時間 driver.set_page_load_tim […]

logging

【學習筆記】 Python 如何寫logging教學+yaml配置

發佈於 發佈留言分類: 02 Python 基礎教學10 所有文章

首先建立一份文件檔命名為config.yaml,所有logger的設定都會在這份文檔裡面,統一在這份文件檔方便於之後不用各別修改py檔內的設定!可以先複製這份,接下來會詳細解說,理解後再修改成自己需要的設置~ 再來建立一個python檔,首先看到class log裡面是在讀取config.yaml的配置,def logging1內的return logging.getLogger(‘m […]

數據分析_Max行銷誌

【數據分析系列】Python 實作數據分析文章

發佈於 發佈留言分類: 10 所有文章

連載中,歡迎交流,如文章內容有誤請不吝指正! DataStudio 模板分享 – GA 購物階段購物階段是個 GA 偏冷門但非常實用的維度,將使用者購物行為細切分為 20 個以上的小步驟,將流程製作成 Dashboard,只需要複製套用就可以使用囉! 2020/7/11 如何利用公開數據做競品分析? 爬取競品公開資料,建立數據儀表板掌握情報,來提高自己銷售業績: – 產業 […]

selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

發佈於 4 則留言分類: 03 Python 爬蟲教學10 所有文章

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存 […]