Async異步全站爬蟲_Max行銷誌

【實戰篇】 解析 Python 之父寫的 web crawler 異步爬蟲

以下程式碼範例是來自於 Python 之父 Guido van Rossum 和 A. Jesse Jiryu Davis 所一起撰寫的 web crawler ,主要是展示如何使用 asyncio module + aiohttp 來寫網頁異步爬蟲。 Authors: A. Jesse Jiryu Davis and Guido van Rossum Project: Web crawler This is a web crawler. You give it a URL and it will crawl that website by following href links in the HTML pages. The point of the example is to show […]

閱讀全文
python_threading_processing

【Python教學】淺談 Multi-processing & Multi-threading 使用方法

一. Multi-processing 和Multi-threading 的優缺點: Multi-processing (多處理程序/多進程): 資料在彼此間傳遞變得更加複雜及花時間,因為一個 process 在作業系統的管理下是無法去存取別的 process 的 memory 適合需要 CPU 密集,像是迴圈計算 Multi-threading (多執行緒/多線程): 資料彼此傳遞簡單,因為多執行緒的 memory 之間是共用的,但也因此要避免會有 Race Condition 問題 適合需要 I/O 密集,像是爬蟲需要時間等待 request 回覆 關於多執行緒在 Python 中受 GIL 的限制,推薦延伸閱讀:【Python教學】淺談 GIL & Thread-safe &a […]

閱讀全文
數據分析_Max行銷誌

[Data Analytics] 數據分析 教學文章

連載中,歡迎交流,如文章內容有誤請不吝指正! Gather Town 使用者行為追蹤 今年蠻多大活動都從線下改辦在 Gather Town,這篇聊聊如何利用 Gather Town video object 的特性,進行局部區域的使用者 traffic 數據追蹤 2021/09/25 Lighthouse 6 個網站速度指標和優化方法 用英文寫 Blog,時間大概變兩倍左右,這篇寫了一個月 Google Search 開始逐步將 Page experience 納入搜尋排名指標,預計八月底完全上線 這篇整理了 6 個 Lighthouse Performance 解釋和如何優化的筆記,有興趣的朋友可以看看 2021/06/15 Linkedin 儀表板分析 這篇利用 LinkedIn 的好友 […]

閱讀全文
selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存爬取 首先在Google Compute Engine上安裝pip sudo apt-get install python3-pip 安裝selenium pip3 install selenium 安裝Chrome瀏覽器 sudo apt-get install chromium-driver 安 […]

閱讀全文
gcp_python_coverphoto

【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式

本篇介紹如何在GoogleCloudPlatform上架設Python爬蟲程式:從GCP建立虛擬機、上傳Python檔案、在GCP執行Python爬蟲程式,和最後在GCP上設定自動排程每日執行。當初在研究GCP上花費不了少時間,所以寫了這篇文章供大家參考,而如果你是想在AWS雲端上架設Python爬蟲程式的話,可以參考這篇:在AWS雲端伺服器上利用 Python Selenium 擷取網站資料。 第一步:建立GCP虛擬機 建立GCP建立虛擬機的步驟可以參考這篇:[教學] 如何在 Google Cloud Platform 架設免費伺服器,按照流程建立好後,來到VM執行個體並點擊SSH,即可進入虛擬的終端機內。 第二部:上傳Python爬蟲檔案至GCP 點擊SSH後進入虛擬終端機,再點右上角齒 […]

閱讀全文