原創|行業資訊|編輯:陳俊吉|2016-07-22 10:46:44.000|閱讀 5271 次
概述:SPSS Modeler包含了多種決策樹算法,包括C5.0、CHAIN、QUEST、C&R和決策列表,他們都可以通過構建樹來生成分類規則。那么他們在使用過程中到底有些什么樣的區別呢?
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
決策樹分類算法雖然看上去是一種簡單的分類技術,但是其在機器學習的領域當中卻是使用得非常的廣泛。決策樹的原理非常簡單,正如名字所描述的,決策樹最后的得出結果就是一棵樹,如下圖所示:
包含了多種決策樹算法,包括C5.0、CHAIN、QUEST、C&R和決策列表,他們都可以通過構建樹來生成分類規則。那么他們在使用過程中到底有些什么樣的區別呢?我們從以下幾點開始比較:
1.在做分類模型的時候,我們需要告訴它,我的輸出目標(分類目標)是什么,比如在客戶流失分析中,目標就是客戶是流失還是不流失,那么是否流失這個指標就是我的目標,我要通過給它輸入的影響因素,讓它去學習,到底什么樣的條件下,客戶是流失的,什么樣的條件下,客戶是不流失的,因此,首先我們看下,這些算法中,在輸出目標類型的選擇是否有所區分?
輸出目標類型一般分為兩種,一種是字符型的,一種是連續數值型的。C5.0、QUEST和決策列表只支持目標類型是字符型的,而C&R和CHAIN既支持字符型,也支持數值型。因此,所有這五類算法都可以用來創建信用卡風險模型,因為它的輸出目標就是有風險或者是無風險,但是只有C&R和CHAIN可以用來創建模型預測下一年客戶花費的金額會是多少。
2.前面講的是輸出目標的類型,而第二點要比較的,是輸出目標的拆分類型,拆分類型有兩種,一種是二元(就是只分為兩類),另一種相對應來說就是多元(三類及以上),那在這5個算法中,C&R和QUEST中支持二元分類,而CHAIN、C5.0和決策列表不管輸出目標拆分為多少組,都支持。
3.在構建決策樹的過程中,最核心的內容就是如何對樹進行分支,這涉及到一個問題,就是決定它分支節點選擇的標準是什么,那么以上五種算法各自標準都不一樣。C5.0使用的標準是信息度量(Information gain ratio);C&R使用的是離差度量(Dispersion measure);CHAIN使用的是卡方檢驗(Chi-square test);QUEST針對輸入指標是分類型的,使用卡方檢驗(Chi-square test),對輸入指標是數值型的,使用方差分析(Analysis of variance,簡稱ANOVA); 決策列表使用統計置信度(Statistical confidence)。那么這里每個標準都有自己的計算公式,這在基本的統計方面的書或者百度上都有很詳細的介紹,大家有興趣可以找相關的資料看看,這里就不具體介紹。由于各個算法使用的標準不同,因此生成的模型及其預測結果也會有所差異。
4.在做數據挖掘分析的時候,很多時候是需要結合業務經驗來更好地構建數據挖掘模型,在應用決策樹的時候,有些算法是可以跟分析人員互動,而不是完全依賴自身標準來生長樹的,比如說CHAIN、QUEST和C&R這三類決策樹,在SPSS Modeler節點上,可以選擇直接生成模型,或者是啟動交互對話的,如果是啟動交互對話,那么你就可以選擇你從業務經驗上認為是重要因素的指標作為生長節點,默認會自動計算分割條件,或者你也可以自定義分割條件;決策列表也可以啟動交互對話,來自定義規則;而C5.0則沒有交互模式。
5. 在使用這些算法時,你可能會注意到,上,CHAIN、QUEST、C&R的設置面板上都有選項讓你選擇是否需要Bagging選項,使用Bagging技術,那么每輪的訓練集由從初始的訓練集中隨機取出的n個訓練倒組成,初始訓練例在某輪訓練集中可以出現多次或根本不出現訓練之后可得到一個預測函數序列, 最終的預測函數對分類問題采用投票方式得到最終結果 。這樣可以很好地提高學習算法準確度,C5.0和決策列表則沒有Bagging選項。
6.與Bagging技術類似,還有另外一種技術是Boosting, 在上,C5.0、CHAIN、QUEST、C&R這些算法的設置面板上都有選項讓你選擇是否需要Boosting(即提升技術),Boosting技術就是通過不斷迭代來產生分類器組合的算法,在每次迭代的過程中,Boosting在訓練樣本總集進行放回抽樣構建一個新的訓練集,并且每一次迭代都會自適應地改變訓練樣本的分布,以此使得接下來新產生的基分類器把“重點”放在那些錯分的樣本上,就這樣通過多次迭代,就能夠產生多個基分類器,最后通過對每個分類器的預測結果進行加權預測,以此得到組合分類器的目的,這一技術可以很好地增加模型準確度,當然,它的計算量也會是原來的n倍(n就是Boosting的成分模型數量),時間也會更長些。C5.0和決策列表就沒有Boosting這個選項了。
介紹了這么多差別,給大家總結一下,如下表:
以上就是這5種算法的區別,別看簡單,其實很有用,如果您沒能記住,或者是對這些算法都不是太了解,那么……也沒有關系,因為在平臺上,還有自動建模器,包括自動分類、自動聚類以及自動數值,這些節點可以幫助您自動選擇最優的三個算法供您參考,有興趣的可以自己試試,當然,要得到更加優化的模型,對算法還是需要有一些了解的,以后,我們也會多發布一些算法方面的文章供大家參考。
試用版下載地址:
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn