秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

數(shù)據(jù)挖掘模型評(píng)價(jià)

上傳人:wan****21 文檔編號(hào):253007250 上傳時(shí)間:2024-11-27 格式:PPT 頁數(shù):49 大?。?75KB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘模型評(píng)價(jià)_第1頁
第1頁 / 共49頁
數(shù)據(jù)挖掘模型評(píng)價(jià)_第2頁
第2頁 / 共49頁
數(shù)據(jù)挖掘模型評(píng)價(jià)_第3頁
第3頁 / 共49頁

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)挖掘模型評(píng)價(jià)》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘模型評(píng)價(jià)(49頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、按一下以編輯母片,第二層,第三層,第四層,第五層,*,Copyright 2003-12,SPSS Taiwan Corp.,按一下以編輯母片標(biāo)題樣式,第17章 數(shù)據(jù)挖掘模型評(píng)價(jià),數(shù)據(jù)挖掘原理與,SPSS Clementine,應(yīng)用寶典,元昌安 主編,鄧松李文敬劉海濤編著,電子工業(yè)出版社,Copyright 2003-12,SPSS Taiwan Corp.,2,Copyright 2003-12,SPSS Taiwan Corp.,17.1,基于損失函數(shù)的標(biāo)準(zhǔn),混淆矩陣,準(zhǔn)確率及誤差的度量,兩個(gè)評(píng)價(jià)模型成本的可視化工具,評(píng),估分類器的準(zhǔn)確率,17.2,基于統(tǒng)計(jì)檢驗(yàn)的準(zhǔn)則,統(tǒng)計(jì)模型之間的距離,

2、統(tǒng)計(jì)模型的離差,17.3,基于記分函數(shù)的標(biāo)準(zhǔn),17.4,貝葉斯標(biāo)準(zhǔn),17.5,計(jì)算標(biāo)準(zhǔn),交叉驗(yàn)證標(biāo)準(zhǔn),自展標(biāo)準(zhǔn),遺傳算法,17.6,小結(jié),3,Copyright 2003-12,SPSS Taiwan Corp.,17.1,基于損失函數(shù)的標(biāo)準(zhǔn),混淆矩陣,混淆矩陣(,confusion matrix,)用來作為分類規(guī)則特征的表示,它包括了每一類的樣本個(gè)數(shù),包括正確的和錯(cuò)誤的分類。,主對(duì)角線給出了每一類正確分類的樣本的個(gè)數(shù),非對(duì)角線上的元素則表示未被正確分類的樣本個(gè)數(shù)。,Copyright 2003-12,SPSS Taiwan Corp.,對(duì)于,m,類的分類問題,誤差可能有,m2-m,。如果僅有

3、,2,類(正樣本和負(fù)樣本,用,T,和,F,或,1,和,0,來象征性地代表),就只有兩類誤差。,期望為,T,,但分類為,F,:稱為假負(fù)。,期望為,F,,但分類為,T,:稱為假正。,此外,期望為,T,,但分類為,T,:稱為真正。,期望為,F,,但分類為,F,:稱為真負(fù)。,Copyright 2003-12,SPSS Taiwan Corp.,我們可以把它們匯總在表,17-1,正、負(fù)樣本的混淆矩陣中。,實(shí)際的類,預(yù)測(cè)的類,C1,C2,C1,真正,假負(fù),C2,假正,真負(fù),總計(jì),真正,+,假正,假負(fù),+,真負(fù),表,17-1,正、負(fù)樣本的混淆矩陣,Copyright 2003-12,SPSS Taiwan

4、 Corp.,當(dāng)分類數(shù),m,為,3,時(shí),對(duì)角線給出正確的預(yù)測(cè)。,如表,17-23,個(gè)類的混淆矩陣所示。,在本例中,總共是,150,個(gè)檢驗(yàn)樣本。,有,6,類誤差(,m,2,-m=3,2,-3=6,),在表中它們以粗體字表示。,可以看到,這個(gè)分類器對(duì)于屬于,B,類的,46,中的,38,個(gè)樣本給出了正確的分類;,8,個(gè)樣本給出了錯(cuò)誤的分類,其中,2,個(gè)分到了,A,類,,6,個(gè)分到了,C,類。,實(shí)際的類,預(yù)測(cè)的類,A,類,B,類,C,類,總計(jì),A,類,45,2,3,50,B,類,10,38,2,50,C,類,4,6,40,50,總計(jì),59,46,45,150,表,17-2 3,個(gè)類的混淆矩陣,Copy

5、right 2003-12,SPSS Taiwan Corp.,17.1.2,準(zhǔn)確率及誤差的度量,為了度量分類器的預(yù)測(cè)精度,如果明確或隱含地假設(shè)每個(gè)被錯(cuò)分的數(shù)據(jù)會(huì)產(chǎn)生相同的成本,我們引入誤差率和準(zhǔn)確率這兩個(gè)參數(shù)作為它的一個(gè)性能度量來對(duì)其進(jìn)行評(píng)估。,誤差率,R,是誤差數(shù)目,E,和檢驗(yàn)集中的樣本數(shù),S,的比值:,(,17-1,),分類器的準(zhǔn)確率,A,是檢驗(yàn)集中正確分類數(shù)和檢驗(yàn)集中樣本數(shù),S,的比值,它的計(jì)算是:,(,17-2,),Copyright 2003-12,SPSS Taiwan Corp.,到目前為止,我們所假設(shè)的是每個(gè)誤差同等成本,如果對(duì)于不同的錯(cuò)誤有不同的成本的話,即使一個(gè)模型有低的

6、準(zhǔn)確率,它也比一個(gè)有高準(zhǔn)確率但是成本高的模型更好。,例如,在表,17-23,個(gè)類的混淆矩陣中如果假定每一個(gè)正確分類的成本為,1000,元,關(guān)于,A,類分錯(cuò)的成本是,500,元,關(guān)于,B,類分錯(cuò)的成本是,1000,元,關(guān)于,C,類分錯(cuò)的成本是,2000,元,則通過矩陣計(jì)算模型成本為(,1231000,)(,5500,)(,121000,)(,102000,),=88500,元。,Copyright 2003-12,SPSS Taiwan Corp.,因此當(dāng)不同類型的誤差對(duì)應(yīng)不同的權(quán)值時(shí),我們要將每個(gè)誤差乘以對(duì)應(yīng)的權(quán)值因子,c,ij,如果混淆矩陣中的誤差元素為,e,ij,,那么總成本函數(shù),C,(替

7、代精度計(jì)算中的誤差數(shù))可以計(jì)算為:,(17-3),Copyright 2003-12,SPSS Taiwan Corp.,要描述模型的質(zhì)量,必須有更加復(fù)雜和全局性的度量。,為此我們引入,5,個(gè)參數(shù):敏感性(,sensitivity,),特異性(,specificity,),精度(,precision,),錯(cuò)誤正例(,false positives,),錯(cuò)誤負(fù)例(,false negatives,)。,敏感性(,sensitivity,),=,(,17-4,),特異性(,specificity,),=,(,17-5,),Copyright 2003-12,SPSS Taiwan Corp.,以上

8、兩個(gè)參數(shù)分別評(píng)估分類器識(shí)別正樣本的情況和識(shí)別負(fù)樣本的情況。,精度(,precision,),=(17-6),錯(cuò)誤正例(,false positives,),=1-,(,17-7,),錯(cuò)誤負(fù)例(,false negatives,),=1-,(,17-8,),Copyright 2003-12,SPSS Taiwan Corp.,其中,,t_pos,是真正的樣本個(gè)數(shù),,pos,是正樣本數(shù),,t_neg,是真負(fù)的樣本個(gè)數(shù),,neg,是負(fù)樣本的個(gè)數(shù),,f_pos,是假正的樣本個(gè)數(shù)。,最終準(zhǔn)確率為:,A=+,(,17-9,),Copyright 2003-12,SPSS Taiwan Corp.,例,1

9、7-1,基于表,17-1,正、負(fù)樣本的混淆矩陣。事件,(Event),這個(gè)術(shù)語代表二值響應(yīng)變量的值,Y,,,Event(1),表示成功,,Event(0),表示失敗??梢园岩粋€(gè)檢驗(yàn)數(shù)據(jù)集中的樣本數(shù)據(jù)分為可能的,4,類,如表,17-3,事件(,Event,)的混淆矩陣,:,預(yù),測(cè),值,實(shí),際,值,Event(1),Event(0),總計(jì),Event(1),a,b,a+b,Event(0),c,d,c+d,總計(jì),a+c,b+d,a+b+c+d,表,17-3,事件(,Event,)的混淆矩陣,Copyright 2003-12,SPSS Taiwan Corp.,該模型的敏感性(,sensitivi

10、ty,),特異性(,specificity,),精度(,precision,),錯(cuò)誤正例(,false positives,),錯(cuò)誤負(fù)例(,false negatives,),5,個(gè)參數(shù)分別為:,敏感性(,sensitivity,),=,特異性(,specificity,),=,精度(,precision,),=,錯(cuò)誤正例(,false positives,),=,錯(cuò)誤負(fù)例(,false negatives,),=,Copyright 2003-12,SPSS Taiwan Corp.,介紹,lift,圖和,ROC,曲線,這兩個(gè)圖都可以用來評(píng)價(jià)模型成本。它們都是關(guān)于二值響應(yīng)變量的,而二值響應(yīng)變

11、量是評(píng)價(jià)方法發(fā)展最快的領(lǐng)域。,17.1.3.1 lift,圖,lift,圖把驗(yàn)證數(shù)據(jù)集中的觀測(cè)數(shù)據(jù)根據(jù)它們的分?jǐn)?shù)以升序或降序排列,分?jǐn)?shù)是基于訓(xùn)練數(shù)據(jù)集估計(jì)的響應(yīng)事件,(,成功,),的概率。把這些分?jǐn)?shù)再細(xì)分成,10,分位點(diǎn),然后對(duì)驗(yàn)證數(shù)據(jù)集中的每個(gè),10,分位點(diǎn)計(jì)算和圖示成功的預(yù)測(cè)概率。如果這些成功的預(yù)測(cè)概率與估計(jì)概率具有相同的順序(升序或降序),那么模型就是有效的。,17.1.3,兩個(gè)評(píng)價(jià)模型成本的可視化工具,圖,17-1lift,圖示例比較了兩個(gè)分類模型的,lift,圖,Copyright 2003-12,SPSS Taiwan Corp.,圖中可看出分?jǐn)?shù)以降序排列,所以曲線減少越多表明模型

12、越好。因此模型,classification tree,看起來比另一個(gè)更好,特別是在第,3,個(gè),10,分位點(diǎn),它具有較好的成功率。,用每個(gè)曲線的值除以基本線,可得到性能的相對(duì)指標(biāo),稱為,lift,,它測(cè)量一個(gè)模型的價(jià)值。,對(duì)于模型,classification tree,,在第,3,個(gè),10,分位點(diǎn)的,lift,值為,2.77(,即,2.27,/1.0,),,這意味著使用模型,classification tree,的成功率是隨機(jī)選擇(基本線)的,3,倍。,Copyright 2003-12,SPSS Taiwan Corp.,17.1.3.2 ROC,曲線,ROC,曲線顯示了給定模型的真正率

13、即敏感性與假正率(錯(cuò)誤正例)之間的比較評(píng)定。也就是說,給定一個(gè)二類問題,我們可以對(duì)檢驗(yàn)集的不同部分,顯示模型可以正確識(shí)別正樣本的比例與模型將負(fù)樣本錯(cuò)誤標(biāo)識(shí)為正樣本的比例之間的比較評(píng)定。敏感性的增加以錯(cuò)誤正例的增加為代價(jià)。,Copyright 2003-12,SPSS Taiwan Corp.,ROC,曲線的畫出以錯(cuò)誤正例為水平抽,以敏感性為垂直軸,截止點(diǎn)是任意特定點(diǎn)。在模型比較方面,理想的曲線是和垂直軸一致的曲線。所以最佳曲線是最靠左邊的曲線。,圖,17-2 3,個(gè)分類模型的,ROC,曲線給出了對(duì),3,個(gè)分類模型的,ROC,曲線,它說明最佳模型是,reg2,。不過三個(gè)模型實(shí)際上是相似的。,圖,

14、17-2,:,3,個(gè)分類模型的,ROC,曲線,Copyright 2003-12,SPSS Taiwan Corp.,通常把數(shù)據(jù)集分為訓(xùn)練集和檢驗(yàn)集,在訓(xùn)練集上建立模型,然后在檢驗(yàn)集上評(píng)估其質(zhì)量。,怎樣將可用樣本分為訓(xùn)練樣本和檢驗(yàn)樣本呢?,這里我們將討論將較小數(shù)據(jù)集劃分為訓(xùn)練樣本集和檢驗(yàn)樣本集的不同技術(shù),這種技術(shù)通常叫做再取樣方法。,17.1.4.1,再替換方法,所有可用的數(shù)據(jù)集都既用于訓(xùn)練集也用于檢驗(yàn)集。換句話說,訓(xùn)練集和檢驗(yàn)集是相同的,17.1.4,評(píng)估分類器的準(zhǔn)確率,Copyright 2003-12,SPSS Taiwan Corp.,保持方法和隨機(jī)子抽樣,保持(,holdout,)方

15、法是我們目前為止討論準(zhǔn)確率時(shí)默認(rèn)的方法(見圖,17-3,用保持方法估計(jì)準(zhǔn)確率)。在這種方法中,給定數(shù)據(jù)隨機(jī)地劃分到兩個(gè)獨(dú)立的集合,:,訓(xùn)練集和檢驗(yàn)集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到檢驗(yàn)集。使用訓(xùn)練集導(dǎo)出模型,其準(zhǔn)確率用檢驗(yàn)集估計(jì)。,隨機(jī)子抽樣,(random subsampling),是保持方法的一種變形,它隨機(jī)地選擇訓(xùn)練集和檢驗(yàn)集,將保持方法重復(fù),k,次。總準(zhǔn)確率估計(jì)取每次迭代準(zhǔn)確率的平均值。,圖,17-3,:用保持方法估計(jì)準(zhǔn)確率圖,Copyright 2003-12,SPSS Taiwan Corp.,17.1.4.3,交叉確認(rèn),在,k,折交叉確認(rèn)(,k-fold c

16、ross-validation,)中,初始數(shù)據(jù)隨機(jī)劃分成,k,個(gè)互不相交的子集或“折”,D1,,,D2,,,Dk,,每個(gè)折的大小大致相等。訓(xùn)練和檢驗(yàn)進(jìn)行,k,次。在第,i,次迭代,劃分,Di,用作檢驗(yàn)集,其余的劃分一起用來訓(xùn)練模型。即在第一次迭代子集,D2,,,Dk,一起作為訓(xùn)練集,得到第一個(gè)模型,并在,D1,上檢驗(yàn);如此下去。與上面的保持和隨機(jī)子抽樣方法不同,這里每個(gè)樣本用于訓(xùn)練的次數(shù)相同,并且用于檢驗(yàn)一次。對(duì)于分類,準(zhǔn)確率估計(jì)是,k,次迭代正確分類的總數(shù)除以初始數(shù)據(jù)中的樣本總數(shù)。,留一(,leave-one-out,)是,k,折交叉確認(rèn)的特殊情況,其中,k,設(shè)置為初始樣本數(shù)。用,k-1,個(gè)樣本作為訓(xùn)練集,每次只給檢驗(yàn)集“留出”一個(gè)樣本,由此設(shè)計(jì)一個(gè)模型。從,k,個(gè)樣本中選,k-1,個(gè)樣本有,k,中選擇,所以可用不同的大小為,k-1,訓(xùn)練樣本重復(fù)進(jìn)行,k,次。由于要設(shè)計(jì),k,個(gè)不同的模型并對(duì)其進(jìn)行比較,這種方法計(jì)算量很大。,Copyright 2003-12,SPSS Taiwan Corp.,17.1.4.4,自助法,自助法(,bootstrap method,)從給定訓(xùn)練樣本中有

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!