python sequencematcher

文字模糊比對:SequenceMatcher

SequenceMatcher 是從兩個序列中,找出最長連續的序列,可以排除設定的 junk 元素,計算的空間複雜度是 O(n^2),使用上不需要額外安裝套件,是 python 內建的函式中 difflab 所提供的 class. 實作 當我們 print get_matching_blocks 方法時,可以看到有被比對到的區塊,[Match(a=6, b=0, size=7), Match(a=14, b=9, size=6), Match(a=30, b=15, size=0)] a: 代表 sequence1 的開始位置 b: 代表 sequence2 的開始位置 size: 代表兩序列相同的長度 SequenceMatcher 的計算方式 當我們 print ratio() 時,可以 […]

閱讀全文
build your blog monitor

Build up your Blog Monitor with Google sheet

This tutorial is a step-by-step explanation of how to build up a blog monitor. We will use the Google Sheet to get the website status and Google Looker Studio to display the blog status. In the end, you will build up the dashboard as below. 1. Copy the google sheet First, copy this google sheet here. Next, you need to modify the column A and column […]

閱讀全文
pretty print

[Python教學] pprint vs print? 學著使用 pprint 來美化 output

pprint 代表 pretty-print 的縮寫,是一個可以讓 lists、tuples 和 dictionaries print 時更方便閱讀的 python 內建函式,試試看使用 pprint 吧!不用再從擠在一起的輸出結果中找資料,學會後就再也回不去 print 了 pprint vs print 的差異 上面是使用 print 所顯示的結果,而下面則是使用 pprint 所顯示的結果,可以看到 pprint 在顯示和閱讀上更方便了許多 如何使用 pprint? pprint 是 python 的內建函式,不需要額外安裝,這邊直接 import pprint 就可以使用,使用方法如下: 如何客製化 pprint? 首先我們實例化 PrettyPrinter,並且給予我們想客製化的參 […]

閱讀全文
GridSearchCV&RandomizedSearchCV

GridSearchCV 和 RandomizedSearchCV 的差異

GridSearchCV 是將你列出的所有條件參數都跑過一次,再給予最佳的參數;而 RandomizedSearchCV 則是依據 n_iter 設定的數字,隨機抽取來跑 model 從程式碼來看 可以看到 GridSearchCV 和 RandomizedSearchCV 都是繼承了 BaseSearchCV,然後覆寫了_run_search 的方法,差別在於處理 param_distributions 是使用 ParameterSampler 或 ParameterGrid 接下來我們再細看 ParameterSampler 和 ParameterGrid 的差異,可以看到 ParameterSampler 裡面還是使用 ParameterGrid 來處理傳入的參數,只是多了 n_ite […]

閱讀全文