轉(zhuǎn)帖|實施案例|編輯:龔雪|2017-05-10 11:25:22.000|閱讀 344 次
概述:本文通過對目前社會上關(guān)于網(wǎng)絡(luò)電信詐騙新聞進行提取,從中分析當前網(wǎng)絡(luò)詐騙發(fā)展趨勢和關(guān)鍵因素,進而構(gòu)建合理的反詐騙模型。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
文|西角邊的MR
網(wǎng)絡(luò)詐騙,電信詐騙層出不窮,花樣翻新,防不勝防,傷害普通百姓利益。本文通過對目前社會上關(guān)于網(wǎng)絡(luò)電信詐騙新聞進行提取,從中分析當前網(wǎng)絡(luò)詐騙發(fā)展趨勢和關(guān)鍵因素,進而構(gòu)建合理的反詐騙模型。
參考
爬蟲獲取了網(wǎng)站關(guān)于電信詐騙的新聞。
其中keyword是通過jieba對文本進行分詞得到的。對于關(guān)鍵詞的分析主要從兩個方面考慮,一個是關(guān)鍵詞之間是否有詐騙邏輯,第二是對具有詐騙邏輯的關(guān)鍵詞進一步分析,分為消極詞匯(例如你被法院傳訊了)和積極詞匯(例如你又雙叒叕成為幸運觀眾了),這兩種詞匯在詐騙中對受害者產(chǎn)生的心理影響是不同的。
由于爬蟲爬取的時間格式具體到秒,要以天為單位進行的關(guān)鍵詞統(tǒng)計,實現(xiàn)方法是以時間為索引構(gòu)建時間和關(guān)鍵詞詞典。
時間和關(guān)鍵詞的指標矩陣如上圖所示,并將它存為csv文件以便后續(xù)處理。
通過構(gòu)建指標矩陣可以大致得知這些關(guān)鍵詞出現(xiàn)的日期和頻率,為后期構(gòu)建關(guān)鍵詞詞組打下基礎(chǔ)。
接下來用pandas讀取上述csv文件,獲得一個Dataframe類型的變量來處理。
假設(shè)對于同一天出現(xiàn)在同一篇文章的關(guān)鍵詞具有相關(guān)性。
Dataframe里有自定義的函數(shù)corr可以求得每個column之間的相關(guān)系數(shù),經(jīng)過index轉(zhuǎn)換后得到一張相關(guān)性系數(shù)表。
經(jīng)過計算后,筆者發(fā)現(xiàn)這里面的相關(guān)性系數(shù)有正有負,當相關(guān)性系數(shù)大于0時,可以認為這個詞組存在詐騙邏輯。
對于變量大于0的情況,還要進一步分類,計算它們的情感態(tài)度值。通過查閱資料,筆者發(fā)現(xiàn)需要許多數(shù)據(jù)才能構(gòu)成一張情感態(tài)度分值表,所以筆者使用了現(xiàn)成的snowNLP的工具包來獲得其態(tài)度值,并以0.5為界限進行積極和消極分類,可視化展示如下:
以csv的形式存儲獲取的數(shù)據(jù),這個比例以后會用于計算詐騙概率。
從中我們便獲取了具有假設(shè)網(wǎng)絡(luò)詐騙邏輯的詞組。
對于用于判斷新的文本中提取出來的關(guān)鍵詞是否具有電信網(wǎng)絡(luò)詐騙的相關(guān)性,我們可以嘗試如下方法
對關(guān)鍵詞的相關(guān)性統(tǒng)計如下:
從圖中可以知道大部分詞語之間都是不能構(gòu)成詐騙邏輯,在0.5,0.75和1左右只有很少一部分詞語。如果數(shù)據(jù)量夠大的話或許可以采用這種方法。所以并不建議使用此類方法。
對于獲取的詞組,可以分為有相關(guān)性(>0)和沒有相關(guān)性的(<0)兩類,構(gòu)建為機器學習樣本({word1:value,word2:value,word3:value},class:value)。然后將樣本分為訓練集和測試集。這里筆者分別使用了樸素貝葉斯的方法和決策樹的方法并進行了比較。這個分類器可以自己嘗試寫,也可以使用nltk里的自帶函數(shù)來處理。
構(gòu)建的樣本代碼如上圖。
上圖是使用bayes和tree進行分類,并計算準確度。
從圖中發(fā)現(xiàn)訓練集和測試集按照4:1進行分類時,使用bayes的精確度最為合適。
從中可以對新提取的關(guān)鍵詞來判斷是否具有相關(guān)性,而這個相關(guān)性也就是指符合電信網(wǎng)絡(luò)詐騙的邏輯思維。對于具有這種相關(guān)性的新詞組,可以繼續(xù)對詞組的情感態(tài)度進行進一步分類。
網(wǎng)絡(luò)電信詐騙中,時間因素也是一個很重要的參量。
一般節(jié)假日是案件的高發(fā)期,所以計算詐騙概率的時候要結(jié)合時間因素。怎樣對時間采樣可以獲得一個比較準確的概率預測?這里筆者采用了以季度為單位和以月份為單位的預測模型。
筆者首先統(tǒng)計出這些新聞出現(xiàn)的大致變化趨勢,新聞能從一定程度上反映當前社會對于詐騙案件的關(guān)注程度。
橙黃色表示的是當日對網(wǎng)絡(luò)電信詐騙新聞的報道篇數(shù),紅色表示一周左右的一個移動平均數(shù),灰色是移動平均標準差。從中大致可以看出電信網(wǎng)絡(luò)詐騙的出現(xiàn)頻率大致上是隨某一熱度時間出現(xiàn)。
為了能夠更好的分別熱度出現(xiàn)的時間閾值,筆者對時間進行按月統(tǒng)計和按季度統(tǒng)計。
這是以月份為采樣的統(tǒng)計,并進行了擬合后的結(jié)果。從中分析電信網(wǎng)絡(luò)案件在1月,9月呈現(xiàn)高發(fā)態(tài)勢。
這是以季度為采樣的統(tǒng)計,并進行了擬合。從圖中大概可以看出一般在每年的四季度到下一年的一季度,每年的暑假到開學這季度,電信網(wǎng)絡(luò)詐騙案件呈現(xiàn)高發(fā)態(tài)勢。
為了能夠準確統(tǒng)計詐騙隨時間變化的趨勢,筆者使用類似決策樹算法的方法來計算兩種采樣頻率的信息熵。
這是兩種采樣對于不同階數(shù)的擬合誤差,如下圖所示:
以月份為采樣,對于不同階數(shù)的擬合誤差。
以季度為采樣,對于不同階數(shù)的擬合誤差。
經(jīng)過決策計算后,以季度為采樣頻率的計算反映詐騙隨時間變化的趨勢更為準確。當然擬合曲線是否具有預測性還等待確定。不過目前一個可行的方法就是以季度為采樣,統(tǒng)計各個季度的出現(xiàn)頻率并使用回歸模型預測(這里也試用過ARIMA模型,但是并沒有將這個劃歸為平穩(wěn)曲線,所以目前這只能這樣做)。
1、電信網(wǎng)絡(luò)詐騙中,更趨向于使用一些積極詞匯,例如中獎等信息來對用戶實施詐騙。
2、電信網(wǎng)絡(luò)詐騙的大致發(fā)展趨勢是上一年的最后季度和年初的第一季度,從中可以大致得出其主要是利用了受害者在過年時放松警惕,易輕信他人的特點。
3、每年的開學季也是電信網(wǎng)絡(luò)詐騙的一個次要高峰期,這一階段的主要對象是學生群體,利用家長,學生的求學的心理來針對性的實施詐騙。
通過對于關(guān)鍵詞和時間序列的分析,在構(gòu)建網(wǎng)絡(luò)及電信詐騙模型的時候,我們要綜合考慮一下幾點:
1、從文章中提取的關(guān)鍵詞要進行相關(guān)性分類和情感態(tài)度分類。相關(guān)性分類是為了獲取具有詐騙邏輯的關(guān)鍵詞組,情感態(tài)度分類是為了對具有詐騙邏輯詞組的詞語進行積極和消極分類。
2、對于新出現(xiàn)的詞組判斷是否具有相關(guān)性可以利用已有的相關(guān)性詞匯表,構(gòu)建訓練集組成機器學習模型。
3、對于時間因素來說,要選擇合適的時間采樣頻率。實現(xiàn)方法是以不同的時間間隔,計算相應時間間隔內(nèi)新聞出現(xiàn)的頻率,計算不同時間間隔的信息熵并進行比較,最終選擇出對應信息熵較低的時間頻率。
當然我們同時也要不斷提高自己的防范意識,不輕信,不貪占小便宜,對自己的財產(chǎn)安全負責。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn