秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

數(shù)據(jù)挖掘與應(yīng)用(十三)課件

上傳人:ruif****inai 文檔編號(hào):253032940 上傳時(shí)間:2024-11-27 格式:PPT 頁(yè)數(shù):43 大?。?.10MB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘與應(yīng)用(十三)課件_第1頁(yè)
第1頁(yè) / 共43頁(yè)
數(shù)據(jù)挖掘與應(yīng)用(十三)課件_第2頁(yè)
第2頁(yè) / 共43頁(yè)
數(shù)據(jù)挖掘與應(yīng)用(十三)課件_第3頁(yè)
第3頁(yè) / 共43頁(yè)

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)挖掘與應(yīng)用(十三)課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘與應(yīng)用(十三)課件(43頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,1,第十三講,模型評(píng)估,2,模型評(píng)估,為了得到能有效預(yù)測(cè)因變量的模型,可以建立多個(gè)模型,對(duì)它們進(jìn)行評(píng)估和比較,并從中選擇最優(yōu)的模型。通常根據(jù)對(duì)修正數(shù)據(jù)集的預(yù)測(cè)效果來(lái)選擇模型。一般地:,令,D,為評(píng)估數(shù)據(jù)集;,N,D,為其中的觀測(cè)數(shù);,令,Y,i,和 分別表示,D,中觀測(cè),i,的因變量的真實(shí)值和模型預(yù)測(cè)值。,3,因變量為二分變量的情形,若因變量只有兩種取值,可不失一般性地假設(shè)它們?yōu)?0,和,t,。,設(shè)模型預(yù)測(cè)觀測(cè),i,屬于類別,0,和類別,1,的概率分別為 和,。,可使用以下方法得到,Y,i,的預(yù)測(cè)值,:,如

2、果,0.5,,令,=1,,否則令,=0,。,4,獲取,Y,i,的預(yù)測(cè)值,也可定義分類利潤(rùn),令,P(l,2,l,1,),表示將實(shí)際屬于類別,l,1,的觀測(cè)歸入類別,l,2,所產(chǎn)生的利潤(rùn)。,缺省地,P(00)=P(11)=1,,,P(10)=P(01)=0。,在實(shí)際應(yīng)用中,需要根據(jù)實(shí)際情況設(shè)置分類利潤(rùn)的值。,例如,在直郵營(yíng)銷中,假設(shè)類別,1,代表潛在顧客響應(yīng),(,即進(jìn)行了購(gòu)買,),,類別,0,代表潛在顧客不響應(yīng)。,P(00),和,P(01),對(duì)應(yīng)于不郵寄產(chǎn)品目錄,帶來(lái)的利潤(rùn)為,0。,P(10),對(duì)應(yīng)于將實(shí)際不響應(yīng)的顧客錯(cuò)誤判斷為響應(yīng)而郵寄產(chǎn)品目錄,帶來(lái)的利潤(rùn)為負(fù),等于聯(lián)系顧客成本,(,包括產(chǎn)品目錄

3、制作、郵寄等成本,),的負(fù)值。,P(11),對(duì)應(yīng)于將實(shí)際響應(yīng)的顧客正確判斷為響應(yīng)而郵寄產(chǎn)品目錄,帶來(lái)的利潤(rùn)為顧客的購(gòu)買金額減去聯(lián)系成本的差,;,因?yàn)?P(11),只能取一個(gè)值,這里采用的購(gòu)買金額是顧客的平均購(gòu)買金額。,5,獲取,Y,i,的預(yù)測(cè)值,給,賦值時(shí)需要比較期望利潤(rùn),:,將觀測(cè),i,歸入類別,0,所帶來(lái)的期望利潤(rùn)為,P(00)+P(01),,而將觀測(cè),i,歸入類別,1,所帶來(lái)的期望利潤(rùn)為,P(10)+P(11),;如果前者小于后者,即,則令,=1,,否則令,=0,。,6,獲取,Y,i,的預(yù)測(cè)值,也可定義分類損失,令,C(l,2,l,1,),表示將實(shí)際屬于類別,l,1,的觀測(cè)歸入類別,l,

4、2,所產(chǎn)生的損失。缺省地,C(00)=C(11)=0,,,C(10)=C(01)=0。,給 賦值時(shí)需要比較期望損失,:,將觀測(cè),i,歸入類別,0,所帶來(lái)的期望損失為,C(00)+C(01),,而將觀測(cè),i,歸入類別,1,所帶來(lái)的期望損失為,C(10)+C(11),;如果前者大于后者,即,則令,=1,,否則令,=0,。,7,混淆矩陣,最簡(jiǎn)單的模型評(píng)估方法是使用下表所示的混淆矩陣,表中,N,l1l2,為實(shí)際屬于類別,l,1,而被預(yù)測(cè)屬于類別,l,2,的觀測(cè)數(shù);顯然,,N,00,+N,01,+N,10,+N,11,=N,D,。,8,混淆矩陣,實(shí)際屬于類別,0,的觀測(cè)中被誤分入類別,1,的比例為,N,

5、01,/(N,00,+N,01,),,實(shí)際屬于類別,1,的觀測(cè)中被誤分入類別,0,的比例為,N,10,/(N,10,+N,11,),,總的誤分類率為,(N,01,+N,10,)/N,D,。,9,平均利潤(rùn)或平均損失,當(dāng)分類利潤(rùn)和分類損失取缺省值時(shí),評(píng)估模型的平均利潤(rùn)或平均損失等價(jià)于評(píng)估總誤分類率。,如果定義了分類利潤(rùn)或分類損失,還可評(píng)估模型的平均利潤(rùn),或平均損失,。,10,更加細(xì)致的評(píng)估,我們可以直接使用模型預(yù)測(cè)概率以對(duì)模型進(jìn)行更加細(xì)致的評(píng)估。,設(shè)某個(gè)關(guān)于直郵營(yíng)銷的歷史數(shù)據(jù)集,D,中有,100,000,位顧客,總體響應(yīng)率為,20%,,也就是說(shuō),如果把產(chǎn)品目錄郵寄給這,100,000,位顧客,實(shí)際

6、會(huì)收到,20,000,份響應(yīng)。,將這,100,000,位顧客按照預(yù)測(cè)概率,從大到小進(jìn)行排列,我們將考慮聯(lián)系其中的某些顧客。,為了方便討論起見(jiàn),按十分位數(shù)將排列好的顧客等分為十組,考慮聯(lián)系第一組的顧客、第二組的顧客,等等;但實(shí)際中可以精確到聯(lián)系多少位顧客。,11,更加細(xì)致的評(píng)估,響應(yīng)率,:,被聯(lián)系的人中響應(yīng)的比例,即,基準(zhǔn)響應(yīng)率,:,不使用任何模型而隨機(jī)聯(lián)系顧客時(shí)所得的響應(yīng)率,出于隨機(jī)性,它等于總體響應(yīng)率。,捕獲響應(yīng)率,:,聯(lián)系顧客所得的響應(yīng)人數(shù)占響應(yīng)者總?cè)藬?shù)的比例,即,基準(zhǔn)捕獲響應(yīng)率,:,不使用任何模型而隨機(jī)聯(lián)系顧客時(shí)所得的捕獲響應(yīng)率,出于隨機(jī)性,它等于被聯(lián)系人數(shù)占顧客總?cè)藬?shù)的比例。,提升值,

7、:,使用模型所得的響應(yīng)率與基準(zhǔn)響應(yīng)率之比。如果提升值大于,1,,說(shuō)明使用模型挑選聯(lián)系人比隨機(jī)挑選效果更好。,12,非累積響應(yīng)情況,13,累積響應(yīng)情況,14,響應(yīng)率圖,15,響應(yīng)率圖,ideal,表示理想情況,:,之后,當(dāng)非累積被聯(lián)系人都屬于非響應(yīng)者時(shí),非累積響應(yīng)率變成,0,,而累積響應(yīng)率等于響應(yīng)者總?cè)藬?shù)與累積被聯(lián)系人數(shù)之比,最后達(dá)到總體響應(yīng)率。,任意響應(yīng)者的預(yù)測(cè)響應(yīng)概率都大于所有非響應(yīng)者的預(yù)測(cè)響應(yīng)概率,因此,若按照預(yù)測(cè)響應(yīng)概率從大到小排序,響應(yīng)者都排在非響應(yīng)者的前面。,當(dāng)累積被聯(lián)系人數(shù)不超過(guò)響應(yīng)者總?cè)藬?shù)時(shí),不管是非累積還是累積情形,被聯(lián)系的所有人都是響應(yīng)者,所以非累積響應(yīng)率和累積響應(yīng)率都是,1

8、00%;,“model”,表示使用模型挑選聯(lián)系人的情況,;,“baseline”,表示不使用任何模型而隨機(jī)聯(lián)系顧客的基準(zhǔn)情況。,實(shí)際的模型當(dāng)然無(wú)法達(dá)到理想效果,但模型的效果越接近理想效果越好。,16,響應(yīng)率圖,非累積捕獲響應(yīng)率圖,模型效果越接近理想效果越好。,在理想情況下,當(dāng)累積被聯(lián)系人數(shù)不超過(guò)響應(yīng)者總?cè)藬?shù)時(shí),不管是非累積還是累積情形,被聯(lián)系的所有人都是響應(yīng)者,所以非累積捕獲相應(yīng)率和累積捕獲響應(yīng)率都等于相應(yīng)的被聯(lián)系人數(shù)與響應(yīng)者點(diǎn)人數(shù)之比。之后非累積捕獲響應(yīng)率變?yōu)?0,,而累積捕獲響應(yīng)率變成,100%,。,累積捕獲響應(yīng)率圖,17,準(zhǔn)確度比率,從累積捕獲響應(yīng)率圖還可以計(jì)算一個(gè)數(shù)值指標(biāo),:,準(zhǔn)確度比

9、率,(Accuracy Ratio),。,首先計(jì)算模型的累積捕獲響應(yīng)率曲線與基準(zhǔn)累積捕獲響應(yīng)率曲線之間的面積,它度量了使用模型相比于基準(zhǔn)情況而言增加的預(yù)測(cè)性能,;,然后計(jì)算理想累積捕獲響應(yīng)率曲線與基準(zhǔn)累積捕獲響應(yīng)率曲線之間的面積,它度量了理想情況相比于基準(zhǔn)情況而言增加的性能;準(zhǔn)確度比率是這兩個(gè)面積的比值。,準(zhǔn)確度比率的取值在,0,至,1,之間,取值,0,表示使用模型的預(yù)測(cè)效果和基準(zhǔn)情況一樣,取值,1,表示模型的預(yù)測(cè)效果和理想情況一樣,;,準(zhǔn)確度比率的值越接近于,1,,模型效果越好。,18,準(zhǔn)確度比率,數(shù)學(xué)上,準(zhǔn)確度比率被定義為,(,1,),r,模型,(q),表示聯(lián)系模型預(yù)測(cè)概率的排序處于前面比

10、例,q(oq1),的顧客時(shí)所得的累積捕獲響應(yīng)率,,0,1,r,模型,(q)dq,表示模型的累積捕獲響應(yīng)率曲線之下的面積。,19,準(zhǔn)確度比率,基準(zhǔn)累積捕獲響應(yīng)率,r,基準(zhǔn),(q)=q,,因此基準(zhǔn)累積捕獲響應(yīng)率曲線之下的面積為,。,公式中的分子計(jì)算了模型的累積捕獲響應(yīng)率曲線與基準(zhǔn)累積捕獲響應(yīng)率曲線之間的面積,類似可推出分母計(jì)算了理想累積捕獲響應(yīng)率曲線與基準(zhǔn)累積捕獲響應(yīng)率曲線之間的面積。,積分的近似,:,示例中使用十分位數(shù),積分可用,來(lái)近似,;,在實(shí)際應(yīng)用時(shí)可精確到每一位顧客,積分可用,來(lái)近似。,20,受試者操作特性曲線,受試者操作特性曲線,(Receiver Operating Character

11、istic Curve,以下簡(jiǎn)稱,ROC,曲線,),也是衡量模型預(yù)測(cè)能力的一種常用工具,它來(lái)源于并經(jīng)常應(yīng)用于醫(yī)學(xué)領(lǐng)域。,假設(shè)習(xí)齊模型預(yù)測(cè)響應(yīng)概率大于某個(gè)臨界值,C,的顧客都預(yù)測(cè)為響應(yīng)者,而將其他顧客都預(yù)測(cè)為非響應(yīng)者。,21,受試者操作特性曲線,特異度,(specificity),定義為真陰性,(true negative),觀測(cè)數(shù)與陰性總觀測(cè)數(shù)之比。,敏感度,(sensitivity),定義為真陽(yáng)性,(true positive),觀測(cè)數(shù)與陽(yáng)性總觀測(cè)數(shù)之比。,真陽(yáng)性觀測(cè)數(shù)指的是實(shí)際響應(yīng)而模型也預(yù)測(cè)響應(yīng)的顧客數(shù),陽(yáng)性總觀測(cè)數(shù)指的是實(shí)際響應(yīng)的顧客數(shù),(,很容易推出,此處敏感度等于累積捕獲響應(yīng)率,)

12、,。,真陰性觀測(cè)數(shù)指的是實(shí)際不響應(yīng)而模型也預(yù)測(cè)不響應(yīng)的顧客數(shù);陰性總觀測(cè)數(shù)指的是實(shí)際不響應(yīng)的顧客數(shù)。,22,受試者操作特性曲線,C,的值從,1,變化到,0,時(shí),特異度和敏感度的值都會(huì)變化,將“,1-,特異度”作為橫軸、敏感度作為縱軸作圖,這種變化在圖中形成的曲線就被稱為,ROC,曲線。,當(dāng),C=1,時(shí),所有顧客都被預(yù)測(cè)為不會(huì)響應(yīng),因此特異度,=1(1-,特異度,=0),,敏感度,=0;,當(dāng),C=0,時(shí),所有顧客都被預(yù)測(cè)為會(huì)響應(yīng),因此特異度,=0(1-,特異度,=1),,敏感度,=1,。,ROC,曲線是連接,(0,0),點(diǎn)和,(1,1),點(diǎn)的一條曲線。,23,受試者操作特性曲線,理想情況下,任意

13、響應(yīng)者的預(yù)測(cè)響應(yīng)概率都大于所有非響應(yīng)者的預(yù)測(cè)響應(yīng)概率。因此,存在,C*,使得預(yù)測(cè)響應(yīng)概率大于,C*,的所有顧客都是響應(yīng)者,而其他顧客都是非響應(yīng)者。,24,受試者操作特性曲線,當(dāng),C,C*,時(shí),所有實(shí)際非響應(yīng)者都被正確地預(yù)測(cè)為不響應(yīng),;,因?yàn)樘禺惗仁菍?shí)際非響應(yīng)者中被模型預(yù)測(cè)為非響應(yīng)者的比例,所以特異度,=1(1-,特異度,=0),,而敏感度是實(shí)際響應(yīng)者中被模型預(yù)測(cè)為響應(yīng)者的比例,;,當(dāng),CC*,時(shí),所有實(shí)際響應(yīng)者都被正確地預(yù)測(cè)為響應(yīng),因此敏感度,=1,,當(dāng),C,的值從,C*,變化到,0,時(shí),特異度從,1,變化到,0(1-,特異度”從,0,變化到,1),。,所以理想的,ROC,曲線由連接,(0,0

14、),點(diǎn)和,(1,0),點(diǎn)的線段與連接,(1,0),點(diǎn)和,(1,1),點(diǎn)的線段組成。,25,受試者操作特性曲線,所以基準(zhǔn)的,ROC,曲線就是連接,(o,o,點(diǎn)和,(1,1),點(diǎn)的一條對(duì)角直線。,在基準(zhǔn)情況下,任意選取一部分顧客,其中響應(yīng)者所占的比例都等于總體響應(yīng)率,非響應(yīng)者所占的比例都等于總體非響應(yīng)率。對(duì)任意,C,值:,特異度都等于預(yù)測(cè)非響應(yīng)者人數(shù)占顧客總?cè)藬?shù)的比例;,而敏感度都等于預(yù)測(cè)響應(yīng)者人數(shù)占顧客總?cè)藬?shù)的比例;,它們的和總是等于,1,。,26,受試者操作特性曲線,一般而言,模型的,ROC,曲線落在理想,ROC,曲線與基準(zhǔn),ROC,曲線之間。,基準(zhǔn),ROC,曲線下的面積為,0.5,,理想,R

15、OC,曲線下的面積為,1,,一般模型,ROC,曲線下的面積在,0.5,至,1,之間,這個(gè)值越接近,1,,模型效果越好。,ROC,曲線下的面積也可作為衡量模型效果的一個(gè)數(shù)值指標(biāo)。,27,受試者操作特性曲線,對(duì)模型的預(yù)測(cè)效果而言,特異度和敏感度都是越大越好,但是這兩者之間需要平衡。,有時(shí)在實(shí)際應(yīng)用中,我們希望選擇截?cái)嘀?C,以使特異度與敏感度的和達(dá)到最大,;,這時(shí)可以取,45,度角直線簇,敏感度,=,+(1-,特異度,),特異度,+,敏感度,=,+1,與,ROC,曲線的切點(diǎn),選取切點(diǎn)對(duì)應(yīng)的,C,值。,28,盈利評(píng)估,除了考察顧客的響應(yīng)情況,還可以考察直郵營(yíng)銷的盈利情況。,前面討論過(guò)分類利潤(rùn),涉及顧

16、客的平均購(gòu)買金額,但在實(shí)際中顧客購(gòu)買的金額通常大小不一。,評(píng)估模型效果時(shí)使用顧客的實(shí)際購(gòu)買金額評(píng)估將更加細(xì)致。,29,盈利評(píng)估,假設(shè)聯(lián)系顧客的成本為每人,1,元。,30,盈利評(píng)估,31,盈利評(píng)估,出于隨機(jī)性,它等于聯(lián)系所有顧客所得利潤(rùn),(,累計(jì)利潤(rùn)表最后一行的利潤(rùn),-13,060),與被聯(lián)系人數(shù)占顧客總?cè)藬?shù)的比例的乘積。,基準(zhǔn)利潤(rùn),:,不使用任何模型而隨機(jī)聯(lián)系顧客所得的利潤(rùn)。,非累積利潤(rùn)圖,累積利潤(rùn)圖,非累積情形下,基準(zhǔn)利潤(rùn)等于總利潤(rùn)的,1/10,,即,-1,306,;累積情形下,基準(zhǔn)利潤(rùn)等于總利潤(rùn)的,i/10,,即,-1.3061i(i=1,10),。,32,因變量為二分變量的情形,在實(shí)際應(yīng)用中,有時(shí),D,中類別,1,和類別,0,的比例,1,及,0,不同于模型將來(lái)要應(yīng)用的數(shù)據(jù)中的比例,1,及,0,,而又希望根據(jù),D,評(píng)估模型對(duì)將來(lái)要應(yīng)用的數(shù)據(jù)的預(yù)測(cè)性能。,這時(shí),需要給,D,中的觀測(cè)賦予不同的權(quán)重,w,i,:,屬于類別,1,的觀測(cè)被賦予權(quán)重,w,i,=,1,/,1,屬于類別,0,的觀測(cè)被賦予權(quán)重,w,i,=,0,/,0,在計(jì)算各項(xiàng)評(píng)估指標(biāo)時(shí),都需要考慮權(quán)重,例如,響應(yīng)率不再簡(jiǎn)單地是響應(yīng)

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!