Async異步全站爬蟲_Max行銷誌

【實戰篇】 解析 Python 之父寫的 web crawler 異步爬蟲

發佈於 1 則留言分類: 03 Python 爬蟲教學10 所有文章

以下程式碼範例是來自於 Python 之父 Guido van Rossum 和 A. Jesse Jiryu Davis 所一起撰寫的 web crawler ,主要是展示如何使用 asyncio module + aiohttp 來寫網頁異步爬蟲。 Authors: A. Jesse Jiryu Davis and Guido van Rossum Project: Web crawler This is a web crawler. You give it a URL and it will crawl that website by following href links in the HTML pages. The point of the example is to show […]

python_threading_processing

【Python教學】淺談 Multi-processing & Multi-threading 使用方法

發佈於 發佈留言分類: 03 Python 爬蟲教學10 所有文章

一. Multi-processing 和Multi-threading 的優缺點: Multi-processing (多處理程序/多進程): 資料在彼此間傳遞變得更加複雜及花時間,因為一個 process 在作業系統的管理下是無法去存取別的 process 的 memory 適合需要 CPU 密集,像是迴圈計算 Multi-threading (多執行緒/多線程): 資料彼此傳遞簡單,因為多執行緒的 memory 之間是共用的,但也因此要避免會有 Race Condition 問題 適合需要 I/O 密集,像是爬蟲需要時間等待 request 回覆 關於多執行緒在 Python 中受 GIL 的限制,推薦延伸閱讀:【Python教學】淺談 GIL & Thread-safe &a […]

數據分析_Max行銷誌

【數據分析系列】Python 實作數據分析文章

發佈於 發佈留言分類: 10 所有文章

連載中,歡迎交流,如文章內容有誤請不吝指正! 用四張圖表提升部落格 SEO 流量部落格「數據」需要留意什麼?又要怎麼建立 KPI 指標,來監測、優化來提升部落格流量?Max 行銷誌寫到第三年才比較有抓到部落格經營的眉眉角角。這篇來聊聊,至今認為最合適的「KPI 指標」和需要觀察的「數據儀表板」。 2020/8/13 DataStudio 模板分享 – GA 購物階段購物階段是個 GA 偏冷門但非常實用的維度,將使用者購物行為細切分為 20 個以上的小步驟,將流程製作成 Dashboard,只需要複製套用就可以使用囉! 2020/7/11 如何利用公開數據做競品分析? 爬取競品公開資料,建立數據儀表板掌握情報,來提高自己銷售業績: – 產業 Top 5 的總營收是多少 […]

selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

發佈於 4 則留言分類: 03 Python 爬蟲教學10 所有文章

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存爬取 首先在Google Compute Engine上安裝pip sudo apt-get install python3-pip 安裝selenium pip3 install selenium 安裝Chrome瀏覽器 sudo apt-get install chromium-driver 安 […]

gcp_python_coverphoto

【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式

發佈於 2 則留言分類: 03 Python 爬蟲教學10 所有文章

本篇介紹如何在GoogleCloudPlatform上架設Python爬蟲程式:從GCP建立虛擬機、上傳Python檔案、在GCP執行Python爬蟲程式,和最後在GCP上設定自動排程每日執行。當初在研究GCP上花費不了少時間,所以寫了這篇文章供大家參考,而如果你是想在AWS雲端上架設Python爬蟲程式的話,可以參考這篇:在AWS雲端伺服器上利用 Python Selenium 擷取網站資料。 第一步:建立GCP虛擬機 建立GCP建立虛擬機的步驟可以參考這篇:[教學] 如何在 Google Cloud Platform 架設免費伺服器,按照流程建立好後,來到VM執行個體並點擊SSH,即可進入虛擬的終端機內。 第二部:上傳Python爬蟲檔案至GCP 點擊SSH後進入虛擬終端機,再點右上角齒 […]