原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-09-01 09:48:55.000|閱讀 1046 次
概述:C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹(shù),它是由美國(guó)斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出的,從名稱中不難理解,它包含了分類樹(shù)和回歸樹(shù),分類樹(shù)用于目標(biāo)變量是分類型的,回歸樹(shù)用于目標(biāo)變量是連續(xù)型的。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷售中 >>
相關(guān)鏈接:
C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹(shù),它是由美國(guó)斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出的,從名稱中不難理解,它包含了分類樹(shù)和回歸樹(shù),分類樹(shù)用于目標(biāo)變量是分類型的,回歸樹(shù)用于目標(biāo)變量是連續(xù)型的。
該算法分割的核心技術(shù)取決于目標(biāo)變量的類型,如果是分類變量,可以選擇使用Gini或者是Twoing.如果是連續(xù)變量,會(huì)自動(dòng)選擇LSD(Least-squared deviation)。
C&R Tree的生長(zhǎng)是二叉樹(shù), 前面我們講過(guò)的C5.0和CHAID分別是以信息增益率和卡方為標(biāo)準(zhǔn)來(lái)選擇最佳分組變量和分割點(diǎn),今天我們講的C&R Tree,如果目標(biāo)變量是分類型,則以Gini系數(shù)來(lái)確認(rèn)分割點(diǎn),如果目標(biāo)變量是數(shù)值型,則以方差來(lái)確認(rèn)分割點(diǎn)。
我們先來(lái)講目標(biāo)變量是分類型的情況,我們稱之為分類樹(shù):
在C&R Tree算法中,Gini系數(shù)反映的是目標(biāo)變量組間差異程度,系數(shù)越小,組間差異越大。Gini系數(shù)計(jì)算公式如下:
G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2
其中T為總記錄數(shù),t1,t2,t3,tn…..分別為輸出變量每個(gè)類別的記錄數(shù)
為了比較好理解這個(gè)公式,我們以分析結(jié)果來(lái)理解公式內(nèi)容,如下圖:
該決策樹(shù)分析結(jié)果,是分析客戶的流失為目標(biāo),影響的因素有小朋友個(gè)數(shù)(children),婚姻狀態(tài)(Status),年齡(age)等,我們先從根節(jié)點(diǎn)開(kāi)始看。
根節(jié)點(diǎn)的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883
左邊節(jié)點(diǎn)G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833
右邊節(jié)點(diǎn)G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252
C&R Tree采用Gini系數(shù)的減少量來(lái)測(cè)量異質(zhì)性下降,因此
ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854
其中n1是左節(jié)點(diǎn)的記錄數(shù)833,n2是右節(jié)點(diǎn)的記錄數(shù)636,N是根節(jié)點(diǎn)的記錄數(shù)833+636=1469。
計(jì)算最終得到的ΔG(t)=0.05464854就是上圖中顯示的改進(jìn)=0.055(四舍五入),那么為什么選擇這個(gè)children<-1.5和children>1/5作為分割點(diǎn),是因?yàn)榕c其它影響因素相比較,這里計(jì)算得到的ΔG(t)最大。所以在整個(gè)決策樹(shù)生長(zhǎng)中,可以看到,越往下生長(zhǎng),ΔG(t)越小。
針對(duì)連續(xù)變量,先對(duì)變量按升序排列,然后,從小到大依次以相鄰數(shù)值的中間值作為將樣本分為兩組,然后分別計(jì)算其ΔG(t)。針對(duì)分類變量,由于C&R Tree只能建立二叉樹(shù)(即只能有兩個(gè)分支),首先需將多類別合并成兩個(gè)類別,形成“超類”,然后計(jì)算兩“超類”下樣本輸出變量取值的異質(zhì)性。
在中,除了使用Gini系數(shù)的減少量作為標(biāo)準(zhǔn),還可以選擇另外兩種標(biāo)準(zhǔn),分別是Twoing(兩分法)和Ordered(有序),如下圖:
Twoing策略中,輸出變量的差異性測(cè)度仍采用Gini系數(shù),不同的是,不再以使用Gini系數(shù)減少最快為原則,而是要找到使合并形成的左右子節(jié)點(diǎn)(兩個(gè)超類)中分布差異足夠大的合并點(diǎn)s,計(jì)算公式為:
仍以下圖決策樹(shù)結(jié)果為例:
因此
該數(shù)值對(duì)應(yīng)著上圖第一個(gè)根節(jié)點(diǎn)的改進(jìn)=0.109(四舍五入)
可以看到,越是靠近根節(jié)點(diǎn),該值越大。
Order策略適用于有序型輸入變量的情況 ,它只限定只有兩個(gè)連續(xù)的類別才可以合并成超類,最終得到最理想的兩個(gè)超類。
接下來(lái)我們來(lái)看目標(biāo)變量是數(shù)值型的情況,我們稱為回歸樹(shù)。 回歸樹(shù)確定最佳分組變量的策略與分類樹(shù)相同,主要不同是測(cè)試輸出變量異質(zhì)性的指標(biāo),
回歸樹(shù)使用的是方差,因此異質(zhì)性下降的測(cè)度指標(biāo)為方差的減少量,其數(shù)學(xué)定義為:
其中R(t)和N分別為分組前輸出變量的方差和樣本量,R(t1),Nt1和R(t2),Nt2分別為分組后左右子樹(shù)的方差和樣本量。使ΔR(t)達(dá)到最大的變量應(yīng)為當(dāng)前最佳分組變量。我們通過(guò)實(shí)際例子的結(jié)果倒推來(lái)理解這個(gè)計(jì)算公式。
我們使用做一個(gè)男裝銷售額(men)預(yù)測(cè)的場(chǎng)景,因?yàn)殇N售額是數(shù)值型,我們選擇C&R Tree來(lái)實(shí)現(xiàn),那么影響男裝銷售的輸入影響因素有女裝銷售(women)、電話營(yíng)銷成本(phone)等,得到的決策樹(shù)分析結(jié)果如下:
那么為什么生成的決策樹(shù)會(huì)以woman作為最佳分組變量,以51286.490作為分割點(diǎn)呢,因這它計(jì)算出來(lái)的ΔR(t)最大,大家可以嘗試找個(gè)例子自己計(jì)算看看,這里不再贅述。
最佳分割點(diǎn)的確定方法與最佳分組亦是的確定方法相同。
在里面,針對(duì) C&R Tree算法,以上介紹的內(nèi)容是確定分割點(diǎn)的核心標(biāo)準(zhǔn),對(duì)于該算法,還有其它的內(nèi)容,比如剪枝,交互樹(shù)建模等,感興趣的話,可以點(diǎn)擊以下鏈接到官網(wǎng)下載試用!
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn