selenium_coverphoto

【爬蟲筆記】如何在 GoogleComputeEngine 上運行 selenium 爬蟲

發佈於 4 則留言分類: 03 Python 爬蟲教學10 所有文章

最近在寫將自己的selenium爬蟲程式放在GoogleComputeEngine上運行,環境設置的過程中不小心踩了不少坑,所以決定記錄下這篇,希望提供給之後想在GCP上設定selenium爬蟲的朋友! 如果對GCP或是selenium不熟悉的朋友,建議可以先閱讀以下兩篇文章: 【爬蟲筆記】如何在GCP上架設運行Python爬蟲程式 【爬蟲筆記】Python Selenium爬蟲教學:實作商品庫存爬取 首先在Google Compute Engine上安裝pip sudo apt-get install python3-pip 安裝selenium pip3 install selenium 安裝Chrome瀏覽器 sudo apt-get install chromium-driver 安 […]

gcp_python_coverphoto

【爬蟲筆記】如何在 GCP 上架設運行 Python 爬蟲程式

發佈於 2 則留言分類: 03 Python 爬蟲教學10 所有文章

本篇介紹如何在GoogleCloudPlatform上架設Python爬蟲程式:從GCP建立虛擬機、上傳Python檔案、在GCP執行Python爬蟲程式,和最後在GCP上設定自動排程每日執行。當初在研究GCP上花費不了少時間,所以寫了這篇文章供大家參考,而如果你是想在AWS雲端上架設Python爬蟲程式的話,可以參考這篇:在AWS雲端伺服器上利用 Python Selenium 擷取網站資料。 第一步:建立GCP虛擬機 建立GCP建立虛擬機的步驟可以參考這篇:[教學] 如何在 Google Cloud Platform 架設免費伺服器,按照流程建立好後,來到VM執行個體並點擊SSH,即可進入虛擬的終端機內。 第二部:上傳Python爬蟲檔案至GCP 點擊SSH後進入虛擬終端機,再點右上角齒 […]

競品關鍵字佈局

[數據分析] Python 爬取競爭對手 Google 搜尋關鍵字佈局和文案

發佈於 10 則留言分類: 01 Python 電商數據分析03 Python 爬蟲教學10 所有文章

過去撰寫關鍵字規劃書時,時常要觀察競爭對手的佈局和文案,要不停的手key關鍵字來查詢還蠻麻煩的,所以寫了這個小程式利用Python爬取Google搜尋結果,一次輸入多個要觀察的關鍵字,就可以利用python自動爬取競爭對手Google關鍵字佈局和文案。 第一步:開啟google_search_bs4執行檔 下載後開啟dist資料夾的google_search_bs4執行檔,此次利用pyinstaller將python環境和套件打包,解壓縮後即可執行檔案,方便不會Python或是使用Anaconda環境不同的朋友,一鍵開啟即可使用! 第二步:輸入關鍵字 輸入關鍵字:輸入的關鍵字可以無限組,但每個關鍵字之間要用半形逗號隔開(例如:投放,廣告操作)。 爬取頁數:目前設定是爬取每個關鍵字的前三頁,如 […]

python scrapy cover photo

[爬蟲筆記] Python Scrapy 爬蟲教學:實作 PTT 資料爬取

發佈於 發佈留言分類: 03 Python 爬蟲教學10 所有文章

此次實作 Python 爬蟲框架 Scrapy 來爬取 Ptt 100 頁的內容。從 Scrapy 安裝、Item 設置、Spiders 編寫到 Scrapy CSS 和 Xpath 抓取資料,詳細記錄 Scrapy 基礎入門步驟教學,提供大家參考,希望此篇爬蟲筆記有幫助到想學習 Scrapy 的朋友。 一、環境設置 1.安裝 Scrapy pip install scrapy 2.建立第一個 Project scrapy startproject ptt 輸入後會自動建立一些文件和設定,資料結構如下: scrapy.cfg:基礎設置 items.py:抓取條目的結構定義 middlewares.py:中間件定義 pipelines.py:管道定義,用於抓取數據後的處理 settings.p […]

[爬蟲筆記] Python Selenium 爬蟲教學:實作商品庫存爬取

發佈於 發佈留言分類: 03 Python 爬蟲教學10 所有文章

利用 Python 寫 Selenium 爬蟲來爬取網站的商品狀態,其中使用到 Selenium 等待網頁載入完畢,BeautifulSoup 解析爬取資料,和 Smtplib 將結果寄信給我和同事,最後用 Linux 內建的 Crontab 排程於每日早上執行這件事情,就這樣每天進公司前就可以在信箱裡面看到這份資料了~ 第一步:Python Selenium自動開啟瀏覽器! 這部分原本是使用 implicitly_wait(): 隱式等待的方法,但因為 WebDriver 常常等到超出時間設定造成回拋異常,所以這邊改成先讓他沈睡 5 秒鐘,再進行爬取資料!   第二步:BeautifulSoup解析網頁 這部分嘗試了 findall() 但最後還是選擇用 selcet() 將 # […]