GridSearchCV&RandomizedSearchCV

GridSearchCV 和 RandomizedSearchCV 的差異

GridSearchCV 是將你列出的所有條件參數都跑過一次,再給予最佳的參數;而 RandomizedSearchCV 則是依據 n_iter 設定的數字,隨機抽取來跑 model 從程式碼來看 可以看到 GridSearchCV 和 RandomizedSearchCV 都是繼承了 BaseSearchCV,然後覆寫了_run_search 的方法,差別在於處理 param_distributions 是使用 ParameterSampler 或 ParameterGrid 接下來我們再細看 ParameterSampler 和 ParameterGrid 的差異,可以看到 ParameterSampler 裡面還是使用 ParameterGrid 來處理傳入的參數,只是多了 n_ite […]

閱讀全文
分類效能指標confusion matrix

效能指標 Accuracy, Recall, Precision, F-score

Confusion matrix 是一個 NxN 的矩陣,可用來呈現分類模型 (Classification Models) 的結果,本篇除了介紹混淆矩陣外,還會介紹 Accuracy, Recall, Precision, F-score 是什麼,以及在面對分類問題時,如何選擇這些衡量分類指標。 Confusion matrix 首先我們從最簡單的二元分類來看,假設今天的分類問題只有兩類 (正常信件 or 廣告信件),那預測出來的結果會有四種 (如下): TP: 實際是正常信件,且預測結果是正常 TN: 實際是廣告信件,且預測結果是廣告 FP: 實際是廣告信件,且預測結果是正常 (Type 1 Error) FN: 實際是正常信件,且預測結果是廣告 (Type 2 Error) Accur […]

閱讀全文
100days_ml

[百日馬拉松] 機器學習-特徵工程

最近參加了機器學習 百日馬拉松的活動,單純記錄下這100天python機器學習中每日覺得最有收穫的地方,如果有想參加這活動的朋友,真心推薦參加!此次機器學習-百日馬拉松的相關代碼放置於:https://github.com/hsuanchi/ML-100-days 相關文章:[百日馬拉松] 機器學習-資料清理https://www.maxlist.xyz/2019/03/03/ml_100days/ 一. 標籤編碼 ( Label Encoding ) 類似於流⽔號,依序將新出現的類別依序編上新代碼,已出現的類別編上已使⽤的代碼 確實能轉成分數,但缺點是分數的⼤⼩順序沒有意義 二. 獨熱編碼 ( One Hot Encoding ) 為了改良數字⼤⼩沒有意義的問題,將不同的類別分別獨立為⼀欄 […]

閱讀全文
機器學習路線圖

[百日馬拉松] 機器學習-資料清理

最近參加了機器學習 百日馬拉松的活動,單純記錄下這100天python機器學習中每日覺得最有收穫的地方,如果有想參加這活動的朋友,真心推薦參加! 此次機器學習-百日馬拉松的相關代碼放置於:https://github.com/hsuanchi/ML-100-days 機器學習相關延伸閱讀: [百日馬拉松] 機器學習-特徵工程 15-30days [數據分析] 如何利用 Google Trend(搜尋趨勢)+機器學習 挑選爆款商品 [數據分析] 如何利用Google商家進行分析和優化 ㄧ. 損失函數 MSE & MAE: 機器學習大部分的算法都有希望最佳化損失函數 (損失函數 = y表示實際值 – ŷ表示預測值) 1.回歸常用的損失函數: * 均方誤差(Mean squar […]

閱讀全文
apriori

[關聯分析] Apriori演算法介紹 (附Python程式碼)

Apriori演算法原理 思考路徑: A priori在拉丁語中指「來自以前」,Apriori是經典的挖掘資料關聯性演算法,採用迭代的方法先搜索出第一項集的各Item支持度,並剪去低於最小支持度的第一項集,得到第二項集後再剪去低於最小支持度的第二項集,依次類推下去直到無法找到項集為止。   Apriori定律1: 假設一個集合{A,B}大於等於最小支持度(Min_Support),則他的子集{A},{B}出現次數必定大於等於最小支持度(Min_Support)   Apriori定律2: 假設集合{A}出現次數小於最小支持度(Min_Support),則他的任何集合如{A,B}出現的次數必定小於最小支持度(Min_Support)       評估指標 1. 支持度(Support): 支持 […]

閱讀全文