原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-08-01 11:33:30.000|閱讀 3859 次
概述:本文主要通過運(yùn)用 IBM SPSS Modeler 中 C5.0 節(jié)點(diǎn)所具有的特殊算法對電信客戶的屬性特征進(jìn)行分析,得出流失客戶的基本特征,以幫助企業(yè)管理者對該類客戶的行為特性進(jìn)行預(yù)警分析,采取針對性的措施改善客戶關(guān)系,避免客戶流失或者挽留客戶,達(dá)到亡羊補(bǔ)牢的效果。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
目前電信運(yùn)營商面臨著激烈的市場競爭。對電信運(yùn)營商來說,客戶即生命,如何保持現(xiàn)有客戶是企業(yè)客戶管理的重中之重。因此,電信運(yùn)營商擁有的客戶越多,作為主要成本的前期投資就會越大,企業(yè)的利潤也就越大。客戶資源對于電信運(yùn)營商來說其意義不言而喻,電信運(yùn)營商之間的競爭實(shí)際上就是對客戶資源的競爭。可以說,未來的電信行業(yè),得客戶者得天下。
數(shù)據(jù)挖掘在電信領(lǐng)域有著廣泛的應(yīng)用:計費(fèi)分析、客戶細(xì)分、電話欺詐、客戶流失預(yù)警分析等等。客戶流失預(yù)警分析是通過數(shù)據(jù)挖掘,發(fā)現(xiàn)和分析出客戶的許多屬性特性和行為特征,從而找到流失客戶的特征,為企業(yè)挽留這類客戶提供決策參考。
本文主要通過運(yùn)用中 C5.0 節(jié)點(diǎn)所具有的特殊算法對電信客戶的屬性特征進(jìn)行分析,得出流失客戶的基本特征,以幫助企業(yè)管理者對該類客戶的行為特性進(jìn)行預(yù)警分析,采取針對性的措施改善客戶關(guān)系,避免客戶流失或者挽留客戶,達(dá)到亡羊補(bǔ)牢的效果。
讀入電信客戶數(shù)據(jù),數(shù)據(jù)有多達(dá) 42 個字段,其中包含一些客戶個人信息,例如年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別, 還包含一些客戶使用電信服務(wù)信息,例如使用電信服務(wù)時間,是否開通無線服務(wù),是否開通語音信箱服務(wù),是否開通親情號服務(wù),以及上月基本話費(fèi),上月長話費(fèi),上月上網(wǎng)費(fèi),累計基本話費(fèi),累計長話費(fèi),累計上網(wǎng)費(fèi)等等。將流失字段 churn 角色設(shè)置為目標(biāo)。將所有其他字段的角色設(shè)置為輸入。
由于數(shù)據(jù)包括多達(dá) 42 個字段,我們將先進(jìn)行數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘最重要的階段之一,通常需要花費(fèi)大量的時間。據(jù)估計,實(shí)際的數(shù)據(jù)準(zhǔn)備工作通常占 50-70% 的工程時間和工作量。在前期的業(yè)務(wù)理解和數(shù)據(jù)理解階段投入足夠的精力可以將對這一階段的投入降至最低,但您仍需花費(fèi)大量的精力在建模前做數(shù)據(jù)準(zhǔn)備工作。
首先通過使用“特征選擇”節(jié)點(diǎn),刪去不能為預(yù)測變量 / 目標(biāo)之間的關(guān)系添加任何有用信息的預(yù)測變量或數(shù)據(jù)。將數(shù)據(jù)源節(jié)點(diǎn)鏈接到“特征選擇”節(jié)點(diǎn),雙擊打開“特征選擇”節(jié)點(diǎn)。
可以看到用戶可以選擇定義缺失值最大百分比,單個類別中記錄的最大百分比,作為記錄百分比的最大類別數(shù),最小變異系數(shù),最小標(biāo)準(zhǔn)差,來進(jìn)行數(shù)據(jù)選擇。這里保持默認(rèn)設(shè)置,運(yùn)行流。打開生成的模型塊如下 ;
3個字段分別由于單個類別過大,缺失值過多以及變異系數(shù)低于閾值而不會被選定作為輸入字段。讓我們進(jìn)一步解釋一下。單個類別中的記錄最大百分比篩選相對于記錄總數(shù)而言,同個類別中具有過多記錄的字段。例如,如果數(shù)據(jù)庫中 95% 的客戶開同一類型的車,則此信息無助于區(qū)分客戶。任何超過指定最大值的字段都將被篩選掉。我們通過圖形看一下 retire 字段。選擇“分布”節(jié)點(diǎn)連接到讀入數(shù)據(jù)的數(shù)據(jù)源節(jié)點(diǎn),選擇 retire 字段,運(yùn)行流。可以看到 retire 字段中,確實(shí)有 95.3% 的人都是未退休的人。此信息無助于區(qū)分客戶。
字段 logwire 由于缺失值的最大百分比超過“特征選擇”節(jié)點(diǎn)中定義的 70% 而被篩選出。顯而易見,具有過多缺失值的字段,幾乎不提供任何預(yù)測信息。我們先直觀的用“表”節(jié)點(diǎn)來觀察一下這個字段,可以看到字段中確實(shí)有許多值是缺失的 $null$ 值。
那么到底缺失比率到底是多少呢,我們用“數(shù)據(jù)審核”節(jié)點(diǎn)來看一下具體的統(tǒng)計分析值。將“數(shù)據(jù)審核”節(jié)點(diǎn)連接到讀入數(shù)據(jù)的數(shù)據(jù)源節(jié)點(diǎn),選擇 logwire 字段,運(yùn)行流。可以看到 logwire 的有效數(shù)據(jù)是 296 條,相對于總的 1000 條數(shù)據(jù),它的缺失比率為 70.4%, 高于“特征節(jié)點(diǎn)”定義的 70%。
而 logequi 字段由于變異系數(shù)低于“特征選擇”節(jié)點(diǎn)中定義的最小變異系數(shù) 0.1 而被篩選掉。此度量值是輸入字段標(biāo)準(zhǔn)偏差與輸入字段均值之間的比值。如果此值接近 0,則變量值的變異性就不高,則信息無助于區(qū)分客戶。
除了這三個字段,我們還將濾除非重要性的字段。重要性是在建模之前在“特征選擇”節(jié)點(diǎn)中定義的,我們建模時使用的是它的默認(rèn)值,這里重新打開“特征選擇”節(jié)點(diǎn),到“選項”選項卡。
可以看到重要性是基于 Pearson 分布的,當(dāng)值小于 0.9,模型將認(rèn)為該字段是不中要的。重新回到之前生成的模型塊,可以看到從字段 marital 開始,重要性是非重要的。我們將濾去這些字段,在模型塊菜單中選擇生成過濾器,選擇“所有排列的字段”/“重要“并單擊確定。
將生成的過濾節(jié)點(diǎn)連接到數(shù)據(jù)源節(jié)點(diǎn),打開過濾節(jié)點(diǎn),可以看到許多字段被過濾掉了。實(shí)際上通過以上的數(shù)據(jù)準(zhǔn)備階段,源數(shù)據(jù)的 42 個字段已被降低到 28 個字段,這些字段將用來建立模型,分析客戶流失。
在最終建模預(yù)測客戶流失之前,我們還需要對這 28 個數(shù)據(jù)進(jìn)行分析,識別所有含有大量缺失數(shù)據(jù)的字段。這里我們再次運(yùn)用“數(shù)據(jù)審核節(jié)”節(jié)點(diǎn)。將數(shù)據(jù)審核節(jié)點(diǎn)附加到生成的“過濾”節(jié)點(diǎn)后,運(yùn)行流。
可以看到唯一需要修改的字段是 logtoll,其有效值比例小于 50%。通常我們對于這種有效值比較低的字段的做法是用它的均值代替它的空值與無效值,這里我們看到,它的均值是 3.240。接下來,我們用“填充”節(jié)點(diǎn)來實(shí)現(xiàn)對空值與無效值的替換。如下圖所示,對于字段 logtoll 的空值和無效值,將用均值 3.240 替代。
這里我們完成了數(shù)據(jù)準(zhǔn)備階段,接下來我們就可以真正建立模型了。我們選擇 C5.0 節(jié)點(diǎn)創(chuàng)建模型
利用 C5.0 所具有的函數(shù)定義將屬性進(jìn)行排列,具有最高信息增益的屬性選作給集合 S 的測試屬性。創(chuàng)建一個根節(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個值創(chuàng)建分支,然后遞歸建樹,可構(gòu)造一個樹狀結(jié)果圖。其中每一個節(jié)點(diǎn)都是屬性中具有最大增益的屬性,生成的樹狀結(jié)果圖如下可見:
從這張圖上,我們可以清楚的看到,對于從根到樹葉的每條路徑創(chuàng)建一個規(guī)則,以現(xiàn)有形式條件分類規(guī)則,組成規(guī)則集。沿著給定路徑上的每個屬性,葉子節(jié)點(diǎn)包含的類預(yù)測,形成后的部分,將規(guī)則存入規(guī)則庫。從圖 1 中可以看出,本地通話費(fèi)小于等于 4.976 分鐘 / 月為分類條件,可以將現(xiàn)有客戶分成兩個集合;然后又根據(jù)性別,將其中一個集合再次劃分為兩個字集合;還可以通過年齡、收入、國際長話費(fèi)時間等再細(xì)分,以此類推。
從圖 13 樹狀分析結(jié)論來對某電信公司主動流失客戶的具體情況進(jìn)行分析,可以看出在本地通話費(fèi)小于等于 4.976 分鐘 / 月的人群中客戶最容易流失,這是因為這一部分人大多有相對穩(wěn)定的工作、收入相對較高,基本上每人都有自己的移動通信工具,孩子較大且大多在外讀書或者已經(jīng)上班,家中很少有人在,因使用頻率低而銷戶。本文認(rèn)為,為挽留這類客戶,就應(yīng)該針對他們工作相對穩(wěn)定并已經(jīng)定性、不需要為打拼天下花大量的時間和精力、需要決策而必須了解和掌握大量信息、休閑娛樂的時間相對較多而且固定等特點(diǎn),采取“固話 + 寬帶”綁定的方法一定會受到他們的歡迎。
年輕 e 族(年齡 , 小于等于 39)收入少、趕新潮、思維活躍、攀比心理較強(qiáng),因而用以受到新的競爭因素影響而成為易流失的客戶,針對這部分人的情況,可以采用各種優(yōu)惠辦法,或贈送時尚彩鈴,或發(fā)展為各種等級的 VIP 會員等辦法,來增加對年輕人的吸引力。
年收入低于 38950 元的低收入群體也是易流失客戶,電信公司可以針對這類低收入客戶,采取零月租,接聽免費(fèi),贈送話費(fèi)等實(shí)用措施,留住低收入客戶。相對應(yīng)的就有年收入高于 51669 元的客戶,可能這類客戶很多競爭公司會來拉攏,這類客戶會因為需要聯(lián)系業(yè)務(wù)或是別的要求,經(jīng)常需要打電話,所以電信可以投其所好,對這類稍高收入群開辦套餐,比如 200 元包月任意打、且免除漫游費(fèi)等優(yōu)惠活動。(等等可根據(jù)其他細(xì)分情況提出有針對性的挽留優(yōu)惠活動)
另外,對易流失客戶群 , 采取提高服務(wù)質(zhì)量(如進(jìn)行客戶滿意度調(diào)查、客戶投訴分析、客戶咨詢和查詢焦點(diǎn)分析等)、適當(dāng)?shù)膬?yōu)惠贈送活動等辦法來提高競爭力,加強(qiáng)企業(yè)與客戶之前的感情溝通,從而留住客戶。
圖 14 可以看出,建模和評估模型得出來的結(jié)果幾乎差不多,而且準(zhǔn)確率可以達(dá)到 90% 以上。實(shí)驗結(jié)果表明,使用該算法進(jìn)行客戶流失的分析和預(yù)測是可行的和有效的,它可以幫助管理者更好地了解客戶的流失受到哪些因素的影響,以便在今后的市場營銷中有針對性的對那些客戶流失率高的客戶做好服務(wù)工作,防止客戶的流失引發(fā)的經(jīng)營危機(jī),這對于提高公司競爭力、改善客戶關(guān)系具有重要意義。
客戶資源是電信公司的生命,保留并鞏固客戶資源對電信公司來說意義重大。C5.0 節(jié)點(diǎn)是數(shù)據(jù)挖掘中一個常用的節(jié)點(diǎn),其算法理論清晰、方法簡單、適用于處理大規(guī)模的數(shù)據(jù)問題,因此是一種知識獲取的有用工具。將 C5.0 算法應(yīng)用于客戶流失分析,能夠幫助電信公司深入了解客戶流失的原因,改進(jìn)客戶服務(wù),對提高客戶的留存率,具有十分重要的應(yīng)用價值。
spss modeler:
spss statistics:
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn