分類決策樹_ID3算法
《分類決策樹_ID3算法》由會(huì)員分享,可在線閱讀,更多相關(guān)《分類決策樹_ID3算法(51頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、決策樹,決策樹基本概念,決策樹算法,主要內(nèi)容,決策樹基本概念,決策樹算法,決策樹基本概念,關(guān)于分類問題,分類(Classification)任務(wù)就是通過學(xué)習(xí)獲得一個(gè)目標(biāo)函數(shù)(TargetFunction)f,將每個(gè)屬性集x映射到一個(gè)預(yù)先定義好的類標(biāo)號(hào)y。,分類任務(wù)的輸入數(shù)據(jù)是紀(jì)錄的集合,每條記錄也稱為實(shí)例或者樣例。用元組(X,y)表示,其中,X是屬性集合,y是一個(gè)特殊的屬性,指出樣例的類標(biāo)號(hào)(也稱為分類屬性或者目標(biāo)屬性),決策樹基本概念,關(guān)于分類問題,X,y,分類與回歸,分類目標(biāo)屬性y是離散的,回歸目標(biāo)屬性y是連續(xù)的,決策樹基本概念,解決分類問題的一般方法,分類技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類
2、模型的系統(tǒng)方法。分類技術(shù)一般是用一種學(xué)習(xí)算法確定分類模型,該模型可以很好地?cái)M合輸入數(shù)據(jù)中類標(biāo)號(hào)和屬性集之間的聯(lián)系。學(xué)習(xí)算法得到的模型不僅要很好擬合輸入數(shù)據(jù),還要能夠正確地預(yù)測(cè)未知樣本的類標(biāo)號(hào)。因此,訓(xùn)練算法的主要目標(biāo)就是要建立具有很好的泛化能力模型,即建立能夠準(zhǔn)確地預(yù)測(cè)未知樣本類標(biāo)號(hào)的模型。分類方法的實(shí)例包括:決策樹分類法、基于規(guī)則的分類法、神經(jīng)網(wǎng)絡(luò)、支持向量級(jí)、樸素貝葉斯分類方法等。,決策樹基本概念,解決分類問題的一般方法,通過以上對(duì)分類問題一般方法的描述,可以看出分類問題一般包括兩個(gè)步驟:1、模型構(gòu)建(歸納)通過對(duì)訓(xùn)練集合的歸納,建立分類模型。2、預(yù)測(cè)應(yīng)用(推論)根據(jù)建立的分類模型,對(duì)測(cè)試
3、集合進(jìn)行測(cè)試。,決策樹基本概念,解決分類問題的一般方法,學(xué)習(xí)算法,學(xué)習(xí)模型,模型,應(yīng)用模型,訓(xùn)練集(類標(biāo)號(hào)已知),檢驗(yàn)集(類標(biāo)號(hào)未知),歸納,推論,決策樹基本概念,決策樹,決策樹是一種典型的分類方法,首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。,決策樹基本概念,決策樹的優(yōu)點(diǎn)1、推理過程容易理解,決策推理過程可以表示成IfThen形式;2、推理過程完全依賴于屬性變量的取值特點(diǎn);3、可自動(dòng)忽略目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量的數(shù)目提供參考。,主要內(nèi)容,決策樹基本概念,決策樹算法
4、,決策樹算法,與決策樹相關(guān)的重要算法,1、Hunt,Marin和Stone于1966年研制的CLS學(xué)習(xí)系統(tǒng),用于學(xué)習(xí)單個(gè)概念。2、1979年,J.R.Quinlan給出ID3算法,并在1983年和1986年對(duì)ID3進(jìn)行了總結(jié)和簡(jiǎn)化,使其成為決策樹學(xué)習(xí)算法的典型。3、Schlimmer和Fisher于1986年對(duì)ID3進(jìn)行改造,在每個(gè)可能的決策樹節(jié)點(diǎn)創(chuàng)建緩沖區(qū),使決策樹可以遞增式生成,得到ID4算法。4、1988年,Utgoff在ID4基礎(chǔ)上提出了ID5學(xué)習(xí)算法,進(jìn)一步提高了效率。1993年,Quinlan進(jìn)一步發(fā)展了ID3算法,改進(jìn)成C4.5算法。5、另一類決策樹算法為CART,與C4.5不同
5、的是,CART的決策樹由二元邏輯問題生成,每個(gè)樹節(jié)點(diǎn)只有兩個(gè)分枝,分別包括學(xué)習(xí)實(shí)例的正例與反例。,CLS,ID3,C4.5,CART,決策樹算法,假定公司收集了左表數(shù)據(jù),那么對(duì)于任意給定的客人(測(cè)試樣例),你能幫助公司將這位客人歸類嗎?即:你能預(yù)測(cè)這位客人是屬于“買”計(jì)算機(jī)的那一類,還是屬于“不買”計(jì)算機(jī)的那一類?又:你需要多少有關(guān)這位客人的信息才能回答這個(gè)問題?,決策樹的用途,誰(shuí)在買計(jì)算機(jī)?,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹的用途,決策樹算法,誰(shuí)在買計(jì)算機(jī)?,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹的用途,決策樹算法,決策樹算法,決策樹的表示,決策
6、樹的基本組成部分:決策結(jié)點(diǎn)、分支和葉子。,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹中最上面的結(jié)點(diǎn)稱為根結(jié)點(diǎn)。是整個(gè)決策樹的開始。每個(gè)分支是一個(gè)新的決策結(jié)點(diǎn),或者是樹的葉子。每個(gè)決策結(jié)點(diǎn)代表一個(gè)問題或者決策.通常對(duì)應(yīng)待分類對(duì)象的屬性。每個(gè)葉結(jié)點(diǎn)代表一種可能的分類結(jié)果,在沿著決策樹從上到下的遍歷過程中,在每個(gè)結(jié)點(diǎn)都有一個(gè)測(cè)試。對(duì)每個(gè)結(jié)點(diǎn)上問題的不同測(cè)試輸出導(dǎo)致不同的分枝,最后會(huì)達(dá)到一個(gè)葉子結(jié)點(diǎn)。這一過程就是利用決策樹進(jìn)行分類的過程,利用若干個(gè)變量來判斷屬性的類別,ID3,決策樹算法,ID3算法主要針對(duì)屬性選擇問題。是決策樹學(xué)習(xí)方法中最具影響和最為典型的算法。該方法使用信息增益度選
7、擇測(cè)試屬性。當(dāng)獲取信息時(shí),將不確定的內(nèi)容轉(zhuǎn)為確定的內(nèi)容,因此信息伴著不確定性。從直覺上講,小概率事件比大概率事件包含的信息量大。如果某件事情是“百年一見”則肯定比“習(xí)以為常”的事件包含的信息量大。如何度量信息量的大?。?ID3信息量大小的度量,決策樹算法,Shannon1948年提出的信息論理論。事件ai的信息量I(ai)可如下度量:,其中p(ai)表示事件ai發(fā)生的概率。假設(shè)有n個(gè)互不相容的事件a1,a2,a3,.,an,它們中有且僅有一個(gè)發(fā)生,則其平均的信息量可如下度量:,ID3信息量大小的度量,決策樹算法,上式,對(duì)數(shù)底數(shù)可以為任何數(shù),不同的取值對(duì)應(yīng)了熵的不同單位。通常取2,并規(guī)定當(dāng)p(a
8、i)=0時(shí)=0,信息增益用來衡量給定的屬性區(qū)分訓(xùn)練樣例的能力,中間(間接)表示屬性ID3算法在生成樹的每一步使用信息增益從候選屬性中選擇屬性用熵度量樣例的均一性,決策樹算法,信息增益用熵度量樣例的均一性熵刻畫了任意樣例集合S的純度給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣例的樣例集S,那么S相對(duì)這個(gè)布爾型分類(函數(shù))的熵為信息論中對(duì)熵的一種解釋:熵確定了要編碼集合S中任意成員的分類所需要的最少二進(jìn)制位數(shù);熵值越大,需要的位數(shù)越多。更一般地,如果目標(biāo)屬性具有c個(gè)不同的值,那么S相對(duì)于c個(gè)狀態(tài)的分類的熵定義為,決策樹算法,用信息增益度量熵的降低程度屬性A的信息增益,使用屬性A分割樣例集合S而導(dǎo)致的熵的降低程
9、度Gain(S,A)是在知道屬性A的值后可以節(jié)省的二進(jìn)制位數(shù)例子,注意是對(duì)當(dāng)前樣例集合計(jì)算上式,理解信息熵,1、信息熵是用來衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值,一個(gè)變量的信息熵越大,那么它出現(xiàn)的各種情況也就越多,也就是包含的內(nèi)容多,我們要描述它就需要付出更多的表達(dá)才可以,也就是需要更多的信息才能確定這個(gè)變量。2、信息熵是隨機(jī)變量的期望。度量信息的不確定程度。信息的熵越大,信息就越不容易搞清楚(雜亂)。3、一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。信息熵也可以說是系統(tǒng)有序化程度的一個(gè)度量。4、信息熵用以表示一個(gè)事物的非確定性,如果該事物的非確定性越高,你的好奇心越重,該事物
10、的信息熵就越高。5、熵是整個(gè)系統(tǒng)的平均消息量。信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。6、處理信息就是為了把信息搞清楚,實(shí)質(zhì)上就是要想辦法讓信息熵變小。,理解信息增益,熵:表示隨機(jī)變量的不確定性。條件熵:在一個(gè)條件下,隨機(jī)變量的不確定性。信息增益:熵-條件熵。表示在一個(gè)條件下,信息不確定性減少的程度。例如:假設(shè)X(明天下雨)的信息熵為2(不確定明天是否下雨),Y(如果是陰天則下雨)的條件熵為0.01(因?yàn)槿绻顷幪炀拖掠甑母怕屎艽螅畔⒕蜕倭耍┬畔⒃鲆?2-0.01=1.99。信息增益很大。說明在獲得陰天這個(gè)信息后,明天是
11、否下雨的信息不確定性減少了1.99,是很多的,所以信息增益大。也就是說陰天這個(gè)信息對(duì)下雨來說是很重要的。,ID3信息量大小的度量,決策樹算法,Gain(S,A)是屬性A在集合S上的信息增益Gain(S,A)=Entropy(S)-Entropy(S,A)Gain(S,A)越大,說明選擇測(cè)試屬性對(duì)分類提供的信息越多,決策樹算法,第1步計(jì)算決策屬性的熵,決策屬性“買計(jì)算機(jī)?”。該屬性分兩類:買/不買S1(買)=641S2(不買)=383S=S1+S2=1024P1=641/1024=0.6260P2=383/1024=0.3740I(S1,S2)=I(641,383)=-P1Log2P1-P2Lo
12、g2P2=-(P1Log2P1+P2Log2P2)=0.9537,決策樹算法,第2步計(jì)算條件屬性的熵,條件屬性共有4個(gè)。分別是年齡、收入、學(xué)生、信譽(yù)。分別計(jì)算不同屬性的信息增益。,決策樹算法,第2-1步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年青年買與不買比例為128/256S1(買)=128S2(不買)=256S=S1+S2=384P1=128/384P2=256/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,決策樹算法,第2-2步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年中年買與不買比例為
13、256/0S1(買)=256S2(不買)=0S=S1+S2=256P1=256/256P2=0/256I(S1,S2)=I(256,0)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0,決策樹算法,第2-3步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年老年買與不買比例為257/127S1(買)=257S2(不買)=127S=S1+S2=384P1=257/384P2=127/384I(S1,S2)=I(257,127)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9157,決策樹算法,第2-4步計(jì)算年齡的熵,年齡共分
14、三個(gè)組:青年、中年、老年所占比例青年組384/1025=0.375中年組256/1024=0.25老年組384/1024=0.375計(jì)算年齡的平均信息期望E(年齡)=0.375*0.9183+0.25*0+0.375*0.9157=0.6877G(年齡信息增益)=0.9537-0.6877=0.2660(1),決策樹算法,第3步計(jì)算收入的熵,收入共分三個(gè)組:高、中、低E(收入)=0.9361收入信息增益=0.9537-0.9361=0.0176(2),決策樹算法,第4步計(jì)算學(xué)生的熵,學(xué)生共分二個(gè)組:學(xué)生、非學(xué)生E(學(xué)生)=0.7811年齡信息增益=0.9537-0.7811=0.1726(3)
15、,決策樹算法,第5步計(jì)算信譽(yù)的熵,信譽(yù)分二個(gè)組:良好,優(yōu)秀E(信譽(yù))=0.9048信譽(yù)信息增益=0.9537-0.9048=0.0453(4),決策樹算法,第6步計(jì)算選擇節(jié)點(diǎn),年齡信息增益=0.9537-0.6877=0.2660(1)收入信息增益=0.9537-0.9361=0.0176(2)年齡信息增益=0.9537-0.7811=0.1726(3)信譽(yù)信息增益=0.9537-0.9048=0.0453(4),決策樹算法,年齡,青年,中年,老年,買/不買,買,買/不買,葉子,決策樹算法,青年買與不買比例為128/256S1(買)=128S2(不買)=256S=S1+S2=384P1=128
16、/384P2=256/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,決策樹算法,如果選擇收入作為節(jié)點(diǎn)分高、中、低,平均信息期望(加權(quán)總和):E(收入)=0.3333*0+0.5*0.9183+0.1667*0=0.4592Gain(收入)=I(128,256)-E(收入)=0.91830.4592=0.4591,I(0,128)=0比例:128/384=0.3333I(64,128)=0.9183比例:192/384=0.5I(64,0)=0比例:64/384=0.1667,注意,決策樹算法,年齡,青
17、年,中年,老年,學(xué)生,買,信譽(yù),葉子,否,是,優(yōu),良,買,不買,買/不買,買,葉子,葉子,葉子,決策樹算法,ID3決策樹建立算法1決定分類屬性;2對(duì)目前的數(shù)據(jù)表,建立一個(gè)節(jié)點(diǎn)N3如果數(shù)據(jù)庫(kù)中的數(shù)據(jù)都屬于同一個(gè)類,N就是樹葉,在樹葉上標(biāo)出所屬的類4如果數(shù)據(jù)表中沒有其他屬性可以考慮,則N也是樹葉,按照少數(shù)服從多數(shù)的原則在樹葉上標(biāo)出所屬類別5否則,根據(jù)平均信息期望值E或GAIN值選出一個(gè)最佳屬性作為節(jié)點(diǎn)N的測(cè)試屬性6節(jié)點(diǎn)屬性選定后,對(duì)于該屬性中的每個(gè)值:從N生成一個(gè)分支,并將數(shù)據(jù)表中與該分支有關(guān)的數(shù)據(jù)收集形成分支節(jié)點(diǎn)的數(shù)據(jù)表,在表中刪除節(jié)點(diǎn)屬性那一欄如果分支數(shù)據(jù)表非空,則運(yùn)用以上算法從該節(jié)點(diǎn)建立子樹
18、。,決策樹算法,決策樹的數(shù)據(jù)準(zhǔn)備,原始表,決策樹算法,整理后的數(shù)據(jù)表,決策樹的數(shù)據(jù)準(zhǔn)備,Datacleaning刪除/減少noise,補(bǔ)填missingvaluesDatatransformation數(shù)據(jù)標(biāo)準(zhǔn)化(datanormalization)數(shù)據(jù)歸納(generalizedatatohigher-levelconceptsusingconcepthierarchies)例如:年齡歸納為老、中、青三類控制每個(gè)屬性的可能值不超過七種(最好不超過五種)Relevanceanalysis對(duì)于與問題無關(guān)的屬性:刪對(duì)于屬性的可能值大于七種又不能歸納的屬性:刪,決策樹算法,決策樹的數(shù)據(jù)準(zhǔn)備,決策樹算法
19、,處理連續(xù)屬性值,決策樹算法比較適合處理離散數(shù)值的屬性。實(shí)際應(yīng)用中屬性是連續(xù)的或者離散的情況都比較常見。在應(yīng)用連續(xù)屬性值時(shí),在一個(gè)樹結(jié)點(diǎn)可以將屬性Ai的值劃分為幾個(gè)區(qū)間。然后信息增益的計(jì)算就可以采用和離散值處理一樣的方法。原則上可以將Ai的屬性劃分為任意數(shù)目的空間。C4.5中采用的是二元分割(BinarySplit)。需要找出一個(gè)合適的分割閾值。參考C4.5算法Top10algorithmsindataminingKnowledgeInformationSystem200814:137,決策樹算法,ID3算法小結(jié),ID3算法是一種經(jīng)典的決策樹學(xué)習(xí)算法,由Quinlan于1979年提出。ID3算
20、法的基本思想是,以信息熵為度量,用于決策樹節(jié)點(diǎn)的屬性選擇,每次優(yōu)先選取信息量最多的屬性,亦即能使熵值變?yōu)樽钚〉膶傩裕詷?gòu)造一顆熵值下降最快的決策樹,到葉子節(jié)點(diǎn)處的熵值為0。此時(shí),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的實(shí)例集中的實(shí)例屬于同一類。,決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(1),通過ID3算法來實(shí)現(xiàn)客戶流失的預(yù)警分析,找出客戶流失的特征,以幫助電信公司有針對(duì)性地改善客戶關(guān)系,避免客戶流失利用決策樹方法進(jìn)行數(shù)據(jù)挖掘,一般有如下步驟:數(shù)據(jù)預(yù)處理、決策樹挖掘操作,模式評(píng)估和應(yīng)用。電信運(yùn)營(yíng)商的客戶流失有三方面的含義:一是指客戶從一個(gè)電信運(yùn)營(yíng)商轉(zhuǎn)網(wǎng)到其他電信運(yùn)營(yíng)商,這是流失分析的重點(diǎn)。二是指客戶月平均
21、消費(fèi)量降低,從高價(jià)值客戶成為低價(jià)值客戶。三、指客戶自然流失和被動(dòng)流失。在客戶流失分析中有兩個(gè)核心變量:財(cái)務(wù)原因非財(cái)務(wù)原因、主動(dòng)流失被動(dòng)流失。客戶流失可以相應(yīng)分為四種類型:其中非財(cái)務(wù)原因主動(dòng)流失的客戶往往是高價(jià)值的客戶。他們會(huì)正常支付服務(wù)費(fèi)用,并容易對(duì)市場(chǎng)活動(dòng)有所響應(yīng)。這種客戶是電信企業(yè)真正需要保住的客戶。,決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(2),數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中(該用戶相關(guān)數(shù)據(jù)存儲(chǔ)在其CRM中),是長(zhǎng)期積累的結(jié)果。但往往不適合直接挖掘,需要做數(shù)據(jù)的預(yù)處理工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù))、凈化(消除冗余數(shù)據(jù))、轉(zhuǎn)
22、換、歸約等。數(shù)據(jù)預(yù)處理工作準(zhǔn)備是否充分,對(duì)于挖掘算法的效率乃至正確性都有關(guān)鍵性的影響。該公司經(jīng)過多年的電腦化管理,已有大量的客戶個(gè)人基本信息(文中簡(jiǎn)稱為客戶信息表)。在客戶信息表中,有很多屬性,如姓名用戶號(hào)碼、用戶標(biāo)識(shí)、用戶身份證號(hào)碼(轉(zhuǎn)化為年齡)、在網(wǎng)時(shí)間(竣工時(shí)間)、地址、職業(yè)、用戶類別、客戶流失(用戶狀態(tài))等等,數(shù)據(jù)準(zhǔn)備時(shí)必須除掉表中一些不必要的屬性,一般可采用面向?qū)傩缘臍w納等方法去掉不相關(guān)或弱相關(guān)屬性。,決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(3),屬性刪除:將有大量不同取值且無概化操作符的屬性或者可用其它屬性來代替它的較高層概念的那些屬性刪除。比如客戶信息表中的用戶標(biāo)識(shí)、
23、身份證號(hào)碼等,它們的取值太多且無法在該取值域內(nèi)找到概化操作符,應(yīng)將其刪除,得到表1。,決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(4),屬性概化:用屬性概化閾值控制技術(shù)沿屬性概念分層上卷或下鉆進(jìn)行概化。文化程度分為3類:W1初中以下(含初中),W2高中(含中專),W3大學(xué)(專科、本科及以上);職業(yè)類別:按工作性質(zhì)來分共分3類:Z1一Z3;繳費(fèi)方式:托收:T1,營(yíng)業(yè)廳繳費(fèi):T2,充值卡:T3。連續(xù)型屬性概化為區(qū)間值:表中年齡、費(fèi)用變化率和在網(wǎng)時(shí)間為連續(xù)型數(shù)據(jù),由于建立決策樹時(shí),用離散型數(shù)據(jù)進(jìn)行處理速度最快,因此對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,根據(jù)專家經(jīng)驗(yàn)和實(shí)際計(jì)算信息增益,在“在網(wǎng)時(shí)長(zhǎng)”屬性
24、中,通過檢測(cè)每個(gè)劃分,得到在閾值為5年時(shí)信息增益最大,從而確定最好的劃分是在5年處,則這個(gè)屬性的范圍就變?yōu)?:H1,H2。而在“年齡”屬性中,信息增益有兩個(gè)鋒值,分別在40和50處,因而該屬性的范圍變?yōu)?0-50即變?yōu)榍嗄?,中年,老年:N1,N2,N3;費(fèi)用變化率:指(當(dāng)月話費(fèi)近3個(gè)月的平均話費(fèi))/近3個(gè)月的平均話費(fèi))0,F(xiàn)1:30%,F(xiàn)2:30%-99%,F3:100%變?yōu)镕1,F2,F3。,決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(5),決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(6),在圖中,NO表示客戶不流失,YES表示客戶流失。從圖可以看出,客戶費(fèi)用變化率為100%
25、的客戶肯定已經(jīng)流失;而費(fèi)用變化率低于30%的客戶;即每月資費(fèi)相對(duì)穩(wěn)定的客戶一般不會(huì)流失,費(fèi)用變化率在30%99%的客戶有可能流失,其中年齡在4050歲之間的客戶流失的可能性非常大,而年齡低于40歲的客戶,用充值卡繳費(fèi)的客戶和在網(wǎng)時(shí)間較短的客戶容易流失;年齡較大的客戶,則工人容易流失。,步驟1:生成訓(xùn)練集和測(cè)試集生成訓(xùn)練集iris.train=iris2*(1:75)-1,(意思是返回原數(shù)據(jù)集1、3、5、7、8。、149奇數(shù)行行所有列的數(shù)據(jù))生成測(cè)試集iris.test=iris2*(1:75),(意思是返回原數(shù)據(jù)集2、4、6、8、10、。、150偶數(shù)行所有列的數(shù)據(jù))步驟2:生成決策樹模型mod
26、el-rpart(SpeciesSepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris.train,method=class)繪制決策樹fancyRpartPlot(model)步驟3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè)iris.rp3=predict(model,iris.test,-5,type=class)注釋:iris.test,-5的意思是去掉原測(cè)試集第5列后的數(shù)據(jù)步驟4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹的accuracy(分類正確的樣本數(shù)除以總樣本數(shù))table(iris.test,5,iris.rp3)注釋:iris.te
27、st,5的意思是取出測(cè)試集第5列的數(shù)據(jù)R語(yǔ)言中使用table(data)進(jìn)行頻數(shù)統(tǒng)計(jì)iris.rp3setosaversicolorvirginicasetosa2500versicolor0241virginica0322accuracy=(25+24+22)/75=94.67%步驟5:生成規(guī)則asRules(model),步驟1:生成訓(xùn)練集和測(cè)試集生成訓(xùn)練集iris.train=iris2*(1:75)-1,(意思是返回原數(shù)據(jù)集1、3、5、7、8。、149奇數(shù)行行所有列的數(shù)據(jù))生成測(cè)試集iris.test=iris2*(1:75),(意思是返回原數(shù)據(jù)集2、4、6、8、10、。、150偶數(shù)行
28、所有列的數(shù)據(jù))步驟2:生成決策樹模型model-rpart(SpeciesSepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris.train,method=class)繪制決策樹fancyRpartPlot(model)步驟3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè)iris.rp3=predict(model,iris.test,-5,type=class)注釋:iris.test,-5的意思是去掉原測(cè)試集第5列后的數(shù)據(jù)步驟4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹的accuracy(分類正確的樣本數(shù)除以總樣本數(shù))table(iris.test,5,iris.rp3)注釋:iris.test,5的意思是取出測(cè)試集第5列的數(shù)據(jù)R語(yǔ)言中使用table(data)進(jìn)行頻數(shù)統(tǒng)計(jì)iris.rp3setosaversicolorvirginicasetosa2500versicolor0241virginica0322accuracy=(25+24+22)/75=94.67%步驟5:生成規(guī)則asRules(model),
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 市教育局冬季運(yùn)動(dòng)會(huì)安全工作預(yù)案
- 2024年秋季《思想道德與法治》大作業(yè)及答案3套試卷
- 2024年教師年度考核表個(gè)人工作總結(jié)(可編輯)
- 2024年xx村兩委涉案資金退還保證書
- 2024年憲法宣傳周活動(dòng)總結(jié)+在機(jī)關(guān)“弘揚(yáng)憲法精神推動(dòng)發(fā)改工作高質(zhì)量發(fā)展”專題宣講報(bào)告會(huì)上的講話
- 2024年XX村合作社年報(bào)總結(jié)
- 2024-2025年秋季第一學(xué)期初中歷史上冊(cè)教研組工作總結(jié)
- 2024年小學(xué)高級(jí)教師年終工作總結(jié)匯報(bào)
- 2024-2025年秋季第一學(xué)期初中物理上冊(cè)教研組工作總結(jié)
- 2024年xx鎮(zhèn)交通年度總結(jié)
- 2024-2025年秋季第一學(xué)期小學(xué)語(yǔ)文教師工作總結(jié)
- 2024年XX村陳規(guī)陋習(xí)整治報(bào)告
- 2025年學(xué)校元旦迎新盛典活動(dòng)策劃方案
- 2024年學(xué)校周邊安全隱患自查報(bào)告
- 2024年XX鎮(zhèn)農(nóng)村規(guī)劃管控述職報(bào)告