秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

數(shù)據(jù)挖掘模型評估

上傳人:tia****g98 文檔編號:253028427 上傳時間:2024-11-27 格式:PPT 頁數(shù):42 大小:1.38MB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘模型評估_第1頁
第1頁 / 共42頁
數(shù)據(jù)挖掘模型評估_第2頁
第2頁 / 共42頁
數(shù)據(jù)挖掘模型評估_第3頁
第3頁 / 共42頁

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)挖掘模型評估》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘模型評估(42頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣

2、式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,數(shù)據(jù)挖掘模型評估,2024/11/27,1,一、評估分類法的準(zhǔn)確率,2024/11/27,2,評

3、估分類法準(zhǔn)確率的技術(shù)有保持(,holdout,)和,k-,折交叉確認(rèn)(,k-fold cross-validation,)方法。,另外,還有兩種提供分類法準(zhǔn)確率的策略:裝袋(,bagging,)和推進(jìn)(,boosting,)。,1,、保持和,k-,折交叉,在保持方法中,給定數(shù)據(jù)隨機(jī)劃分成兩個獨(dú)立的集合:訓(xùn)練集和測試集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到訓(xùn)練集。,2024/11/27,3,“保持”這種評估方法是保守的,因?yàn)橹挥幸徊糠殖跏紨?shù)據(jù)用于導(dǎo)出的分類法。,隨機(jī)子選樣是“保持”方法的一種變形,它將“保持”方法重復(fù),k,次。總體準(zhǔn)確率估計(jì)取每次迭代準(zhǔn)確率的平均值。,K,折交叉確

4、認(rèn),在,k,折交叉確認(rèn)(,kfold crossvalidation,)中,初試數(shù)據(jù)被劃分成,k,個互不相交的子集或“折”,每個折的大小大致相等。訓(xùn)練和測試,k,次。在第,i,次迭代,第,i,折用作測試集,其余的子集都用于訓(xùn)練分類法。,準(zhǔn)確率估計(jì)是,k,次迭代正確分類數(shù)除以初始數(shù)據(jù)中的樣本總數(shù)。,2024/11/27,4,2,、提高分類法的準(zhǔn)確率,2024/11/27,5,裝袋,2024/11/27,6,推進(jìn),即使用相同的分類器,各個分類器不是獨(dú)立的;使用同一個算法對樣本迭代訓(xùn)練,后建立的分類器關(guān)注于先前建立的分類器不能更好處理的部分?jǐn)?shù)據(jù);最終的輸出為各個分類器的加權(quán)投票。,3,、靈敏性和特效

5、性度量,假定你已經(jīng)訓(xùn)練了一個分類法,將醫(yī)療數(shù)據(jù)分類為“cancer”或“non_cancer”。90%的準(zhǔn)確率使得該分類法看上去相當(dāng)準(zhǔn)確,但是如果實(shí)際只有34%的訓(xùn)練樣本是“cancer”會怎么樣?,顯然,90%的準(zhǔn)確率是不能接受的該分類法只能正確的標(biāo)記“non_cancer”(稱作負(fù)樣本)樣本。但我們希望評估該分類能夠識別“cancer”(稱作正樣本)的情況。,2024/11/27,7,為此,除用準(zhǔn)確率評價分類模型外,還需要使用靈敏性(sensitivity)和特效性(specificity)度量。,還可以使用精度(precision)來度量,即評估標(biāo)記為“cancer”,實(shí)際是“cance

6、r”的樣本百分比。,2024/11/27,8,其中,,t_pos,是真正樣本(被正確地按此分類的“,cancer,”樣本)數(shù),,pos,是正(“,cancer,”)樣本數(shù),,t_neg,是真負(fù)樣本(被正確地按此分類的“,non_cancer,”樣本)數(shù),,neg,是負(fù)(“,non_cancer,”)樣本數(shù),,而,f_pos,假正樣本(被錯誤地標(biāo)記為“,cancer,”的“,non_cancer,”樣本)數(shù),2024/11/27,9,靈敏性,特效性,精度,2024/11/27,10,預(yù)測值,1,(實(shí)際“,cancer,”),0,(實(shí)際,no_cancer,),1(,預(yù)測“,cancer,”,),

7、0,0,0(,預(yù)測“,no_cancer,”,),10,90,二、數(shù)據(jù)挖掘模型評估的錯誤觀念,傳統(tǒng)評估分類預(yù)測模型時,通常使用的是“準(zhǔn)確度”。它的功能是評估模型分類實(shí)物是否正確。準(zhǔn)確度越高模型就越好。,但事實(shí)上,這樣評估出來的模型并不是最好的。,2024/11/27,11,例:某家銀行發(fā)行現(xiàn)金卡,風(fēng)險控管部門主管決定建立,DM,模型,利用申請人申請當(dāng)時的所填的資料,建立違約預(yù)測模型,來作為核發(fā)現(xiàn)金卡以及給予額度的標(biāo)準(zhǔn)。,該銀行邀請兩家,DM,公司來設(shè)計(jì)模型,評比的標(biāo)準(zhǔn)是根據(jù)模型的“準(zhǔn)確度”。,根據(jù)此標(biāo)準(zhǔn),,A,公司所建模型的準(zhǔn)確度,92%,,,B,公司的準(zhǔn)確度是,68%,。,銀行和,A,公司簽

8、約。,2024/11/27,12,利用,A,公司的模型后,結(jié)果發(fā)現(xiàn)里面只有一條規(guī)則,那就是“所有的人都不會違約”。,為什么?,A,:所有的人都不會違約,因此它錯誤的只有,8%,的違約分類錯誤(違約誤判為不違約),因此準(zhǔn)確率是,92%,。,B,:在根據(jù)評分由高至低篩選出來前,40%,的名單中,可以將所有的違約戶都找出來。即有,32%,的非違約戶被誤判為違約戶,因此準(zhǔn)確率只有,68%,。,哪一家的模型更好呢?,由上可以發(fā)現(xiàn),不能使用準(zhǔn)確率來評判模型的優(yōu)劣。,2024/11/27,13,為什么會出現(xiàn)這樣的結(jié)果?,原因在于兩類錯誤,忽略了“,錯誤不等價,”。,如果把一個“會違約的人判斷成不會違約”,這

9、家銀行損失,20,30,萬元的現(xiàn)金卡卡金,但是如果將一個“不會違約的人錯判成違約”,只是劃分了一些審查成本以及可能因?yàn)楸J亟o予額度而造成的機(jī)會成本損失。,因此兩種誤判所造成的效益影響是不等價的。,2024/11/27,14,所謂小概率事件是發(fā)生概率小,而且一定是能夠?yàn)槠髽I(yè)界帶來高度獲利或嚴(yán)重?fù)p失的事件。,由于小概率事件發(fā)生概率很小,如果針對所有客戶采取行動,就會形成浪費(fèi),因此,需要利用預(yù)測的技術(shù)將小概率事件找出來。那么,只針對預(yù)測的小概率事件采取行動就會避免浪費(fèi)。,DM,的價值就在于能夠利用歷史資料找出,“小概率事件”。,2024/11/27,15,小概率事件:,因此,評估數(shù)據(jù)挖掘模型的第一步

10、就必須從錯誤狀態(tài)的分類入手。這需要建立分類矩陣,通過分類矩陣來查看所有錯誤的分布。,2024/11/27,16,H,0,為真,H,0,為假,真實(shí)情況,所作判斷,接受,H,0,拒絕,H,0,正確,正確,棄真錯誤,取偽錯誤,兩類錯誤,犯第一類錯誤是棄真錯誤;,犯第二類錯誤是取偽錯誤,。,2024/11/27,17,三、分類矩陣,對于,DM,來說,通常第二類錯誤的損失或收益要比第一類高。,因此,我們需要確定哪一個狀況是我們所關(guān)心的小概率事件。,把對這個事件的誤判會造成極大損失的情況,作為第二類錯誤。,例,把一個好賬的人當(dāng)作呆賬是第一類錯誤,把一個呆賬的人當(dāng)作好賬是第二類錯誤。,2024/11/27,

11、18,預(yù)測值,1,(實(shí)際“會違約”),0,(實(shí)際“不會違約”),1,66,28,0,185,721,2024/11/27,19,表中,預(yù)測為會違約且實(shí)際也會違約的有,66,人,預(yù)測不會違約且實(shí)際沒有違約的有,721,人,這些是分類正確者。,表中,預(yù)測為會違約且實(shí)際沒有違約的有,28,人,預(yù)測不會違約且實(shí)際違約的有,185,人,這些是預(yù)測模型判斷錯誤的部分。,其中,后者還會造成比較嚴(yán)重的損失,是值得關(guān)注的部分。,該如何使用分類矩陣的信息呢?,2024/11/27,20,主要看三個指標(biāo),即回應(yīng)率、反查率以及間距縮減。,Response rate,=,預(yù)測會違約且實(shí)際會違約,/,所有預(yù)測會違約,=6

12、6/(66+28)=70.21%,預(yù)測模型回應(yīng)率的高低須和總體回應(yīng)率比較:,總體,response rate,=,總體實(shí)際會違約,/,總體,=(66+185)/(66+185+28+721)=25.1%,2024/11/27,21,預(yù)測值,1,(實(shí)際“會違約”),0,(實(shí)際“不會違約”),1,66,28,0,185,721,回應(yīng)率,(response rate),:在預(yù)測的名單中找出有多少小概率事件(在預(yù)測違約的名單中,真正違約的所占比例是多少)。,可以發(fā)現(xiàn),原始回應(yīng)率為,25.1%,,運(yùn)用數(shù)據(jù)挖掘模型提升為,70.21%,,因此回應(yīng)率提升了,2.8,倍。,回應(yīng)率講究的是模型“寧缺勿濫”的能力

13、。,回應(yīng)率高并不代表一定是好模型,因?yàn)槿绻脭?shù)據(jù)挖掘模型從一萬人中挑出,10,個最有可能會買產(chǎn)品的顧客,結(jié)果回應(yīng)率是,100%,,但是卻漏掉了大多數(shù)會買產(chǎn)品的顧客,因此,還得參考“反查率”這個指標(biāo)。,2024/11/27,22,Recall,=,預(yù)測會違約且實(shí)際違約,/,所有實(shí)際會違約,=66/(66+185)=26.29%,它的意義在于:預(yù)測出來會違約的人占了總體會違約的客戶多少百分比。反查率越高,表明犯第二類錯誤的可能性越小,那么模型越好。,2024/11/27,23,預(yù)測值,1,(實(shí)際“會違約”),0,(實(shí)際“不會違約”),1,66,28,0,185,721,反查,(recall),:

14、預(yù)測出來的小概率事件占總體小概率事件的比例是多少。,完美的預(yù)測模型反查率是,100%,,但是反查率與回應(yīng)率是互相矛盾的。,recall=67/(67+184),66/(66+185),Response rate=67/(67+38),66/(66+28),2024/11/27,24,預(yù)測值,1,(實(shí)際“會違約”),0,(實(shí)際“不會違約”),1,67,38,0,184,711,預(yù)測值,1,(實(shí)際值),0,(實(shí)際值),1,66,28,0,185,721,Range reduce,=,預(yù)測會違約,/,總體,=(66+28)/(66+28+721+185),=9.4%,間距縮減代表的是根據(jù)模型執(zhí)行活動

15、時的成本,當(dāng)如果名單量沒有有效縮減時,執(zhí)行的總成本會很高,因此間距縮減越低越好。,2024/11/27,25,預(yù)測值,1,(實(shí)際值),0,(實(shí)際值),1,66,28,0,185,721,間距縮減,(range reduce),:通過,DM,模型來找出小概率事件時,名單縮小了多少。,從上述三個指標(biāo)來看,這個預(yù)測模型可以讓名單縮減至原來的9.4%,但是卻只包含了總體26.29%會違約的人(反查率),讓回應(yīng)率提升了原先的2.8倍。,2024/11/27,26,注意:,很少有模型同時能夠滿足上述三個指標(biāo)的要求,當(dāng)回應(yīng)率很高時,一定是篩選高概率族群,因此名單間距縮減一定會變低,但是會遺漏掉低概率族群必定

16、會造成反查降低,所以若只看分類矩陣,找不出最好的模型。,分類矩陣是根據(jù)一個概率閥值將顧客分作兩種情況,過度簡化了實(shí)際的結(jié)果。因?yàn)樗械难菟惴ǔ祟A(yù)測結(jié)果之外,同時還會提供概率值作為排序的基準(zhǔn)。,2024/11/27,27,四、增益圖(靈敏性分析),2024/11/27,28,橫軸百分比代表根據(jù),DM,模型根據(jù)概率由高到低排序后的名單占總體百分比。,縱軸則是在這批名單中小概率事件的人數(shù)占總體小概率事件人數(shù)的百分比。,45,度線表示隨機(jī)的狀態(tài),代表當(dāng)篩選一半的名單去檢查違約狀況時,剛好會包含全體名單一半的違約戶數(shù)量。,正常模型的增益圖要比,45,度線向第二象限彎曲,越向上彎曲表示模型效果越好。,理想模型線:在增益圖的最上方兩段直線所構(gòu)成的,表示完美預(yù)測的結(jié)果。,AUC(area under curve),:模型曲線下面的陰影面積與完美模型曲線下面陰影面積的比值。,AUC,越接近于,1,,表示模型的預(yù)測能力越高。,吉尼系數(shù),=,模型曲線與,45,度線之間的面積,/,完美模型曲線與,45,度線之間的面積,基尼系數(shù)?,吉尼系數(shù)越接近,1,,表示模型的預(yù)測能力越高。,2024/11/27,29,A

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!