《第3章-分類《數(shù)據(jù)挖掘》課件》由會員分享,可在線閱讀,更多相關(guān)《第3章-分類《數(shù)據(jù)挖掘》課件(47頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,第三章分類,of,56,1,高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用,分類,是一種很重要的數(shù)據(jù)挖掘技術(shù),也是數(shù)據(jù)挖掘研究的重點和熱點之一。分類的目的是分析輸入數(shù)據(jù),通過訓練集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一個類找到一種準確描述或者模型,這種描述常常用謂詞來表示。由此生成的類描述用來對未來的測試數(shù)據(jù)進行分類。盡管這些未來測試數(shù)據(jù)的類標簽是未知的,仍可以由此預測這些新數(shù)據(jù)所屬的類。也可以由此對數(shù)據(jù)中每一個類有更好的理解,。,More,應(yīng)用市場:,醫(yī)療診斷、人臉檢測、故障診斷和故障,預警,第三章分類of561高
2、級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘,3.1,基本概念,第三章分類,3.2,決策樹,3.3,貝葉斯分類,3.5,實戰(zhàn):,決策樹算法在,Weka,中的實現(xiàn),習題,3.4,支持向量機,of,56,2,高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用,3.1基本概念第三章分類3.2決策樹3.3貝葉斯分類,分類,(,Classification,)是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。這種模型稱為分類器,預測分類的(離散的、無序的)類標號。這些類別可以用離散值表示,其中值之間的次序沒有意義,。,3.1.1,分類,的基本概念,of,56,3,3.1,基本概念,第三章 分類,分類,也可定義
3、為:,分類,的任務(wù)就是通過學習得到一個目標函數(shù),(Target,Function),,把每個屬性,集,x,映射,到一個預先定義的類,標號,y,。,分類(Classification)是一種重要的數(shù)據(jù),數(shù)據(jù),分類過程有兩階段:,(,1,)學習階段(構(gòu)建分類模型)。,(,2,)分類階段(使用模型預測給定數(shù)據(jù)的類標號),。,3.1.2,分類,的,過程,of,56,4,3.1,基本概念,第三章 分類,建立分類模型的一般方法,數(shù)據(jù)分類過程有兩階段:3.1.2 分類的過程of56,分類器,的性能和所選擇的訓練集和測試集有著直接關(guān)系。一般情況下,先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到
4、的模型。如果使用相同的訓練集和測試集,那么模型的準確度就很難使人信服。保持法和交叉驗證是兩種基于給定數(shù)據(jù)隨機選樣劃分的,是常用的評估分類方法準確率的,技術(shù)。,3.1.3,分類器,性能的評估方法,of,56,5,3.1,基本概念,第三章 分類,分類器的性能和所選擇的訓練集和測試集有著直接關(guān)系。一,6,3.2,決策樹,第三章分類,3.1,基本概念,3.3,貝葉斯分類,3.5,實戰(zhàn):,決策樹算法在,Weka,中的實現(xiàn),習題,3.4,支持向量機,of,56,6,高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用,63.2決策樹第三章分類3.1基本概念3.3貝葉斯分,7,決策樹,(,Decision Tr
5、ee,)是一種類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部節(jié)點(非樹葉節(jié)點)表示在屬性上的測試,每個分支表示該測試上的一個輸出,而每個樹葉節(jié)點存放一個類標號,樹的最頂層節(jié)點是根節(jié)點。決策樹生成方式一般情況下都是由上而下的。每次不同的事件或決策都有可能引發(fā)至少兩個以上的事件,形成不同的結(jié)果,這種決策方法用圖形表示出來很像一棵樹,所以稱之為決策樹。決策樹是一種簡單且廣泛使用的分類器。通過訓練數(shù)據(jù)來構(gòu)建決策樹,可高效地對未知的數(shù)據(jù)進行分類,。,3.2.1,決策樹概述,of,56,7,3.2,決策樹,第三章 分類,決策樹,是數(shù)據(jù)挖掘的有力工具之一,決策樹學習算法是從一組樣本數(shù)據(jù)集(一個樣本數(shù)據(jù)也可以稱為實例)為
6、基礎(chǔ)的一種歸納學習算法,它著眼于從一組無次序、無規(guī)則的樣本數(shù)據(jù)(概念)中推理出決策樹表示形式的分類規(guī)則。,7 決策樹(Decision Tree)是一種類似于流,8,基于,決策樹的決策算法是屬于實用性很好的總結(jié)預測算法之一,是一個趨近于非連續(xù)型函數(shù)值的算法,。決策樹,在各行各業(yè)有著非常多的廣泛應(yīng)用,如在醫(yī)院的臨床決策、人臉檢測、故障診斷、故障預警、醫(yī)療數(shù)據(jù)挖掘、案例分析、分類預測的軟件系統(tǒng)等方面都有很大的用處,。,決策樹,的最佳用途是圖解說明如何領(lǐng)會決策與相關(guān)事件的相互作用,。,3.2.2,決策樹,的用途和特性,of,56,8,3.2,決策樹,第三章 分類,8 基于決策樹的決策算法是屬于實用性
7、很好的總結(jié)預測算法,9,決策樹,是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。它提供一種在什么條件下會得到什么值的類似規(guī)則的方法。決策樹分為分類樹和回歸樹兩種,分類樹對離散變量做決策樹,回歸樹對連續(xù)變量做決策樹。,直觀,看,決策樹分類器就像判斷模塊和終止塊組成的流程圖,終止塊表示分類結(jié)果(也就是樹的葉子)。判斷模塊表示對一個特征取值的,判斷(,該特征有幾個值,判斷模塊就有幾個分支),。,3.2.3,決策樹,工作原理,of,56,9,3.2,決策樹,第三章 分類,買電腦的決策樹,9 決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。它提供,10,10,上圖,表示,了一個關(guān)心電子產(chǎn)品的用戶是否會購買電腦,用它可
8、以預測某條記錄(某個人)的購買意向。樹中包含了三種節(jié)點:,根節(jié)點(,root rode,),它沒有入邊,但有兩條或多條出邊。,子節(jié)點(,child node,),恰有一條入邊和兩條或多條出邊。,葉節(jié)點(,leaf node,)或終節(jié)點(,terminal node,),恰有一條入邊,但沒有出邊,。,在,決策樹中,每個葉節(jié)點都賦予一個類標號。非終,節(jié)點(,包括根節(jié)點和內(nèi)部節(jié)點)包含屬性測試條件,用以分開具有不同特性的記錄。這棵決策樹對銷售記錄進行分類,指出一個電子產(chǎn)品消費者是否會購買一臺計算機。每個內(nèi)部節(jié)點(方形框)代表對某個屬性的一次檢測。每個葉節(jié)點(橢圓框)代表一個,類,。,of,56,10
9、,3.2,決策樹,第三章 分類,1010 上圖表示了一個關(guān)心電子產(chǎn)品的用戶是否會購買電,11,11,決策樹,分類算法應(yīng)用的完整流程應(yīng)包含建樹和應(yīng)用。建樹是從經(jīng)驗數(shù)據(jù)中獲取知識,進行機器學習,建立模型或者構(gòu)造分類器,是決策樹算法的工作重點,通常又將其分為建樹和剪枝兩個部分,。,決策樹,構(gòu)建的基本,步驟,如下:,1,.,開始,所有記錄看作一個節(jié)點,。,2,.,遍歷每個變量的每一種分割方式,找到最好的分割點,。,3,.,分割成多個節(jié)點,N,1,,,N,2,,,N,m,(,m,的數(shù)量與當前的屬性相關(guān)),。,4,.,對,N,1,,,N,2,,,N,m,分別繼續(xù)執(zhí)行,2,3,步,直到每個節(jié)點足夠“純”為止
10、。(“純”的含義是要么全部是“是”,要么全部是“否”),。,3.2.4,決策樹,構(gòu)建步驟,of,56,11,3.2,決策樹,第三章 分類,1111 決策樹分類算法應(yīng)用的完整流程應(yīng)包含建樹和應(yīng)用,12,12,12,樹,的主體建好后,接下來便是對其剪枝,。,決策樹,的剪枝一般通過極小化決策樹整體的損失函數(shù)或代價函數(shù)來,實現(xiàn)。,決策樹,剪枝常用的方法有兩種:預,剪枝和,后,剪枝。,預,剪枝是根據(jù)一些原則盡早停止樹的增長,如樹的深度達到用戶所要的深度、節(jié)點中樣本個數(shù)少于用戶指定個數(shù)等。預剪枝在建立樹的過程中決定是否需要繼續(xù)劃分或分裂訓練樣本來實現(xiàn)提前停止樹的構(gòu)造,一旦決定停止分枝,就將當前節(jié)點標記為葉
11、節(jié)點,。,后,剪枝是通過在完全生長的樹上剪去分枝實現(xiàn)的,通過刪除節(jié)點的分支來剪去樹,節(jié)點。,of,56,12,3.2,決策樹,第三章 分類,121212 樹的主體建好后,接下來便是對其剪枝。of,13,13,13,1.,認識決策樹,1,)決策樹的生成過程,一,棵決策樹的生成過程主要分為以下,3,個部分,:,(,1,)特征選擇:特征選擇是指從訓練數(shù)據(jù)眾多的特征中選擇一個特征作為當前節(jié)點的分裂標準,如何選擇特征有著很多不同量化評估標準,從而衍生出不同的決策樹算法,。,(,2,)決策樹生成:根據(jù)選擇的特征評估標準,從上至下遞歸地生成子節(jié)點,直到數(shù)據(jù)集不可分則決策樹停止生長,。,(,3,)剪枝:決策樹
12、容易過擬合,一般都需要剪枝,縮小樹結(jié)構(gòu)規(guī)模、緩解過擬合,。,3.2.5,決策,樹算法原理,of,56,13,3.2,決策樹,第三章 分類,131313 1.認識決策樹3.2.5 決策樹算法原理,14,14,14,14,基于,信息論的決策樹算法有,ID3,、,CART,和,C4.5,等算法,其中,C4.5,和,CART,兩種算法從,ID3,算法中衍生而來。,CART,和,C4.5,支持數(shù)據(jù)特征為連續(xù)分布時的處理,主要通過使用二元切分來處理連續(xù)型變量,即求一個特定的值分裂值:特征值大于分裂值就走左子樹,或者就走右子樹,。,ID3,算法建立,在“奧卡姆剃刀”的基礎(chǔ)上,越是小型的決策樹越優(yōu)于大的決策樹
13、。,ID3,算法中根據(jù)信息論的信息增益評估和選擇特征,每次選擇信息增益最大的特征來做判斷模塊,。,C4.5,是,ID3,的一個改進算法,繼承了,ID3,算法的優(yōu)點。,C4.5,算法用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足,在樹構(gòu)造過程中進行剪枝;能夠完成對連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進行處理,。,CART,算法采用的是基尼(,Gini,)指數(shù)(選,Gini,指數(shù)最小的特征,s,)作為分裂標準,同時它也是包含后剪枝操作,。,of,56,14,3.2,決策樹,第三章 分類,14141414 基于信息論的決策樹算法有ID3、CA,15,15,15,15,
14、2,.ID3,算法,1)ID3,算法的信息論基礎(chǔ),(,1,),信息熵,信息熵,:在概率論中,信息熵給了一種度量不確定性的方式,是用來衡量隨機變量不確定性的,熵就是信息的期望值。若待分類的事物可能劃分在,N,類中,分別是,x,1,,,x,2,,,x,n,,每一種取到的概率分別是,p,1,,,p,2,,,p,n,,,那么,X,的熵就定義為,:,從,定義中可知:,當,隨機變量只取兩個值時,即,X,的分布,則,熵為,:,of,56,15,3.2,決策樹,第三章 分類,15151515 2.ID3算法of56153.2,16,16,16,16,16,16,(,2,),條件熵,假設(shè),有隨機變量,(,X,Y
15、,),其聯(lián)合概率分布為:,P(X=x,i,Y=y,i,)=p,ij,i=1,2,n;j=1,2,m,。,則條件熵,H(Y|X),表示在已知隨機變量,X,的條件下隨機變量,Y,的不確定性,其定義為,X,在給定條件下,Y,的條件概率分布的熵對,X,的數(shù)學期望,:,若是,樣本的特征只有兩個值,(X,1,=0,,,X,2,=1),對應(yīng),(,出現(xiàn),不出現(xiàn),),,如文本分類中某一個單詞的出現(xiàn)與否。那么對于特征二值的情況,用,T,代表特征,用,t,代表,T,出現(xiàn),,,表示,該特征不出現(xiàn)。那么,:,與,前面的公式對比一下,,P(t),就是,T,出現(xiàn)的概率,,P(),就是,T,不,出現(xiàn)的概率,,,結(jié)合信息熵的計
16、算公式,可得,:,of,56,17,3.2,決策樹,第三章 分類,161616161616 (2)條件熵of56173.,17,17,17,17,17,(,3,)信息,增益,信息,增益(,Information Gain,)表示得知特征,X,的信息后,而使得,Y,的不確定性減少的程度。定義為:,信息,增益是針對一個一個的特征而言的,就是看一個特征,X,,系統(tǒng)有它和沒它的時候信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息增益,。,對于,特征取值為二值的情況,特征,T,給系統(tǒng)帶來的信息增益就可以寫成系統(tǒng)原本的熵與固定特征,T,后的條件熵之差,:,of,56,17,3.2,決策樹,第三章 分類,1717171717 (3)信息增益of56173.2,18,18,18,18,18,18,3,.C4.5算法,C4.5,算法同樣以“信息熵”作為核心,是,ID3,基礎(chǔ)上的優(yōu)化改進,同時,也保持了分類準確率高、速度快的特點。,1,)基本思想,信息,增益,C4.5,算法挑選具有最高信息增益率的屬性為測試屬性。對樣本集,T,,假設(shè)變量,a,有,k,個屬性,,,屬性取值,a,1,,,a,2,,,a,