現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展



《現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展》由會(huì)員分享,可在線閱讀,更多相關(guān)《現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展(41頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,第6章,現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展,本章學(xué)習(xí)目標(biāo):,(1)通過(guò)知識(shí)挖掘系統(tǒng)的體系結(jié)構(gòu)的學(xué)習(xí)掌握知識(shí)發(fā)現(xiàn)的定義和知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)。,(2)通過(guò)現(xiàn)代挖掘技術(shù)及應(yīng)用的學(xué)習(xí)掌握規(guī)則型、神經(jīng)網(wǎng)絡(luò)型、遺傳算法型、粗糙集型和決策樹(shù)型現(xiàn)代挖掘技術(shù)。,(3)通過(guò)知識(shí)發(fā)現(xiàn)工具與應(yīng)用的學(xué)習(xí)掌握知識(shí)挖掘工具的系統(tǒng)結(jié)構(gòu)、運(yùn)用中的問(wèn)題和知識(shí)挖掘的價(jià)值。,(4)經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的發(fā)展的學(xué)習(xí)了解文本挖掘、Web挖掘、可視化數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和分布式數(shù)據(jù)挖掘。,現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展,6.1,知識(shí)挖掘系統(tǒng)的體系結(jié)構(gòu),6.2,現(xiàn)代挖掘技術(shù)及
2、應(yīng)用,6.3,知識(shí)發(fā)現(xiàn)工具與應(yīng)用,6.4,數(shù)據(jù)挖掘技術(shù)的發(fā)展,練 習(xí),6.1,知識(shí)挖掘系統(tǒng)的體系結(jié)構(gòu),知識(shí)發(fā)現(xiàn)的定義,知識(shí)發(fā)現(xiàn)是用一種簡(jiǎn)潔的方式從大量數(shù)據(jù)中抽取信息的一種技術(shù),所抽取的信息是隱含的、未知的,并且具有潛在應(yīng)用價(jià)值。,知識(shí)發(fā)現(xiàn)可看成是一種有價(jià)值信息的搜尋過(guò)程,它不必預(yù)先假設(shè)或提出問(wèn)題,仍然能夠找到那些非預(yù)期的令人關(guān)注的信息,這些信息表示了不同研究對(duì)象之間的關(guān)系和模式。它還能通過(guò)全面的信息發(fā)現(xiàn)與分析,找到有價(jià)值的商業(yè)規(guī)則。,知識(shí)發(fā)現(xiàn)意味著在數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的幾千兆、幾萬(wàn)兆字節(jié)數(shù)據(jù)中尋找預(yù)先未知的商業(yè)模式與事實(shí)。,知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu),知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)由知識(shí)發(fā)現(xiàn)系統(tǒng)管理器、知識(shí)庫(kù)、商
3、業(yè)分析員、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)接口、數(shù)據(jù)選擇、知識(shí)發(fā)現(xiàn)引擎、知識(shí)發(fā)現(xiàn)評(píng)價(jià)和知識(shí)發(fā)現(xiàn)描述等部分組成(圖,6.1,)。,數(shù)據(jù)倉(cāng)庫(kù),知識(shí)庫(kù),數(shù)據(jù)庫(kù)接口,數(shù)據(jù)選擇,知識(shí)發(fā)現(xiàn)引擎,知識(shí)發(fā)現(xiàn)評(píng)價(jià),知識(shí)發(fā)現(xiàn)描述,知識(shí)發(fā)現(xiàn)管理器,商業(yè)分析員,圖6.1 知識(shí)發(fā)現(xiàn)系統(tǒng)結(jié)構(gòu),1.知識(shí)發(fā)現(xiàn)系統(tǒng)管理器,控制并管理整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程,2.,知識(shí)庫(kù)和商業(yè)分析員,知識(shí)庫(kù)包含了源于各方面的知識(shí)。商業(yè)分析員要按一種有效的方式指導(dǎo)關(guān)注信息的發(fā)現(xiàn),。,3.,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)接口,知識(shí)發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)庫(kù)接口可以直接與數(shù)據(jù)倉(cāng)庫(kù)通信。,4.,數(shù)據(jù)選擇,確定從數(shù)據(jù)倉(cāng)庫(kù)中需要抽取的數(shù)據(jù)及數(shù)據(jù)結(jié)構(gòu),5.,知識(shí)發(fā)現(xiàn)引擎,將知識(shí)庫(kù)中的抽取算法提供給數(shù)據(jù)選擇
4、構(gòu)件抽取的數(shù)據(jù),6.,發(fā)現(xiàn)評(píng)價(jià),有助于商業(yè)分析員篩選模式,選出那些關(guān)注性的信息,7.,發(fā)現(xiàn)描述,發(fā)現(xiàn)、評(píng)價(jià)并輔助商業(yè)分析員在知識(shí)庫(kù)中保存關(guān)注性發(fā)現(xiàn)結(jié)果以備將來(lái)引用,并保持知識(shí)發(fā)現(xiàn)與管理人員的通信。,6.2,現(xiàn)代挖掘技術(shù)及應(yīng)用,6.2.1,規(guī)則型現(xiàn)代挖掘技術(shù)及應(yīng)用,1.,關(guān)聯(lián)規(guī)則的基本概念,buys(x,“puter”)=buys(x,“finacial_management_software”),age(“30.40”)ine(“42000.50000”)=buys(x,“high_resolution_TV”),布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則,單維規(guī)則,多維關(guān)聯(lián),多層關(guān)聯(lián)規(guī)則,單層關(guān)聯(lián)規(guī)則,ag
5、e(“30.40”)=buys(x,“IBM puter”)(6.3),age(“30.40”)=buys(x,“puter”)(6.4),2.,關(guān)聯(lián)規(guī)則的應(yīng)用目標(biāo),置信度或正確率可以定義為:,(6.5),覆蓋率可以定義為,“興趣度”為目標(biāo)的關(guān)聯(lián)規(guī)則,3.,關(guān)聯(lián)規(guī)則的算法,Apriori算法,1,找出所有支持度大于最小支持度的項(xiàng)集,這些項(xiàng)集稱為頻集,包含,k,個(gè)項(xiàng)的頻集稱為,k-,項(xiàng)集。,2,使用第,1,步找到的頻集產(chǎn)生所期望的規(guī)則。,Apriori,算法的第,1,步采用了遞歸方法,算法表示為,L,1,=large 1-itemsets;/,產(chǎn)生頻繁,1,項(xiàng)集,L,1,for(k=2;L,k-
6、1,;k+)do/,循環(huán)產(chǎn)生頻繁,2,項(xiàng)集,L,2,直到某個(gè),r使L,r,為空,begin,C,k,=apriori-gen(L,k-1,);/,產(chǎn)生,k-,項(xiàng)集的候選集,for all transactions t,D do,begin,C,t,=subset(C,k,t);/,事務(wù),t,中包含的候選集,for all candidates c,C,t,do,c.count+;,end,L,k,=c,C,k,|c.count,minsup,end,Answer=U,k,L,k,第,2,步算法較為簡(jiǎn)單。如果只考慮規(guī)則的右邊只有一項(xiàng)的情況,給定一個(gè)頻集,Y=I,1,I,2,I,3,I,k,k,2
7、,I,j,I,,那么只有包含集合,I,1,I,2,I,3,I,k,中的項(xiàng)的規(guī)則最多有,k,條。這種規(guī)則形如,I,1,I,2,I,3,I,i-1,I,i+1,I,k,I,i,。這些規(guī)則置信度必須大于用戶給定的最小置信度。,數(shù)據(jù)庫(kù)D,C,1,L,1,事務(wù)標(biāo)識(shí),項(xiàng)集,項(xiàng)集,支持度,項(xiàng)集,支持度,A1,1,3,4,掃描數(shù)據(jù),庫(kù)D,1,2,1,2,A2,2,3,5,2,3,比較,支持度,2,3,A3,1,2,3,5,3,3,3,3,A4,2,5,4,1,5,3,5,3,由,L,1,產(chǎn)生,C,2,C,2,L,2,項(xiàng)集,項(xiàng)集,支持度,項(xiàng)集,支持度,1,2,掃描數(shù)據(jù),庫(kù)D,1,2,1,1,2,2,1,3,1,
8、3,2,比較,支持度,2,3,2,1,5,1,5,1,2,5,3,2,3,2,3,2,3,5,2,2,5,2,5,3,3,5,3,5,2,項(xiàng)集,掃描數(shù)據(jù),庫(kù)D,項(xiàng)集,支持度,2,3,5,2,3,5,2,由L,2,產(chǎn)生C,3,L,3,4.,關(guān)聯(lián)規(guī)則的應(yīng)用,前件和后件規(guī)則中的正確率和覆蓋率,規(guī)劃覆蓋率和正確率的平衡,前件,后件,正確率,覆蓋率,百吉餅,奶油干酪,80%,5%,百吉餅,橙汁,40%,3%,百吉餅,咖啡,40%,2%,百吉餅,雞蛋,25%,2%,面包,牛奶,35%,30%,黃油,牛奶,65%,20%,雞蛋,牛奶,35%,15%,奶酪,牛奶,40%,8%,規(guī)劃覆蓋率,正確率低,正確率高,
9、覆蓋率高,規(guī)劃很少是正確的,但可以使用,規(guī)劃多數(shù)情況下是正確的,而且可以經(jīng)常使用,覆蓋率低,規(guī)劃很少是正確的,一般不被使用,規(guī)劃多數(shù)情況下是正確的,但很少被使用,6.2.2,神經(jīng)網(wǎng)絡(luò)型現(xiàn)代挖掘技術(shù),1.,神經(jīng)網(wǎng)絡(luò)及其學(xué)習(xí)方法,神經(jīng)網(wǎng)絡(luò)的工作過(guò)程主要分兩個(gè)階段:學(xué)習(xí)階段和工作階段。,學(xué)習(xí)方式則有三種:有教師(監(jiān)督)學(xué)習(xí)、無(wú)教師(監(jiān)督)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。,6.2.2,神經(jīng)網(wǎng)絡(luò)型現(xiàn)代挖掘技術(shù),2.,基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘,(1)基于自組織神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù),一種無(wú)教師學(xué)習(xí)過(guò)程,、,可以提取一組數(shù)據(jù)中的重要特征或某種內(nèi)在知識(shí),(2)模糊神經(jīng)網(wǎng)絡(luò)類型數(shù)據(jù)挖掘技術(shù),模糊BP網(wǎng)絡(luò)、模糊Kohonen聚類網(wǎng)
10、絡(luò)、模糊推理網(wǎng)絡(luò)、模糊ART模型等,模糊BP網(wǎng)絡(luò)中,樣本的希望輸出值改為樣本相對(duì)各類的希望隸屬度,輸出表達(dá)方面實(shí)現(xiàn)了模糊化,而且將樣本的隸屬度引入了權(quán)系數(shù)的修正規(guī)則中,使權(quán)系數(shù)的修正規(guī)則也實(shí)現(xiàn)了模糊化。,6.2.2,神經(jīng)網(wǎng)絡(luò)型現(xiàn)代挖掘技術(shù),3.,后向傳播模型(,BP,Back Propagation,)及其算法,具體過(guò)程如下:,選定p個(gè)樣本;,權(quán)值初始化(隨機(jī)生成);,依次輸入樣本;,依次計(jì)算各層的輸出;,求各層的反傳誤差;,按權(quán)值調(diào)整公式修正各權(quán)值和閥值;,按新權(quán)值計(jì)算各層的輸出,直到誤差小于事先設(shè)定閥值;,變換函數(shù)可以采用這樣幾種:,階躍函數(shù)、S型函數(shù)、比例函數(shù)、符號(hào)函數(shù)、,飽和函數(shù),、,
11、雙曲函數(shù),6.2.2,神經(jīng)網(wǎng)絡(luò)型現(xiàn)代挖掘技術(shù),4.,神經(jīng)網(wǎng)絡(luò)的應(yīng)用,47歲,收入6500元,節(jié)點(diǎn),借貸拖欠?,連接,0.47,0.65,0.39,Weight=0.7,Weight=0.1,年齡,收入,0.47(0.7)+0.65(0.1)0.39,6.2.3,遺傳算法型現(xiàn)代挖掘技術(shù),1.,遺傳算法的基本原理,達(dá)爾文的“適者生存”理論、繼承的信息由基因攜帶、多個(gè)基因組成了染色體、基因座、等位基因、基因型和表現(xiàn)型,染色體對(duì)應(yīng)的是一系列符號(hào)序列,通常用0、1的位串表示,進(jìn)行生物的遺傳進(jìn)化。在這一過(guò)程中包括三種演化操作:在父代基因群中的雙親選擇操作、兩個(gè)父代雙親產(chǎn)生子代基因的交叉操作和在子代基因群體
12、中的變異操作。,兩種數(shù)據(jù)轉(zhuǎn)換:從表現(xiàn)型到基因型的轉(zhuǎn)換,另一種是從基因型到表現(xiàn)型的轉(zhuǎn)換,遺傳算法實(shí)質(zhì)上是一種繁衍、檢測(cè)和評(píng)價(jià)的迭代算法,最大優(yōu)點(diǎn)是問(wèn)題的最優(yōu)解與初始條件無(wú)關(guān),而且搜索最優(yōu)解的能力極強(qiáng),6.2.3,遺傳算法型現(xiàn)代挖掘技術(shù),2.,遺傳算法的處理過(guò)程,(1)編碼并生成祖先群體,要用遺傳算法解決問(wèn)題,首先要定義有待解決的問(wèn)題:,F=f(a,b,c),F,R,(a,b,c),F=f(a,b,c),是屬于實(shí)數(shù)域,R,的一個(gè)實(shí)數(shù),也是每一組解,(a,i,b,i,c,i,),的適應(yīng)度的度量,算法的目標(biāo)是找一個(gè),(a,o,b,o,c,o,),,,使,F=f(a,o,b,o,c,o,),取最大值。,
13、(2)計(jì)算當(dāng)前基因群體中所有個(gè)體的環(huán)境適合度,(3)用適應(yīng)函數(shù)評(píng)價(jià)每一個(gè)體對(duì)環(huán)境的適應(yīng)度,(4)選擇適應(yīng)度好的生物個(gè)體進(jìn)行復(fù)制,(5)選擇適應(yīng)度好的生物個(gè)體進(jìn)行復(fù)制交叉配對(duì)繁殖,(6)新生代的變異操作,6.2.3,遺傳算法型現(xiàn)代挖掘技術(shù),編碼并生成祖先群體,計(jì)算當(dāng)前基因群體中所有個(gè)體的適合度,是否滿足最優(yōu)解條件?,選擇群體中適應(yīng)值高的個(gè)體進(jìn)行復(fù)制,交叉操作,變異操作,終止,6.2.3,遺傳算法型現(xiàn)代挖掘技術(shù),3.,遺傳算法的應(yīng)用,用四個(gè)染色體來(lái)定義客戶類型:,基因1:客戶的年齡下限,基因2:客戶的年齡上限,基因3:客戶的收入水平,基因4:客戶的人口狀況(人口狀況可以分成:少(1至2人)、一般(
14、3至4人)和多(5人以上)三種狀況),客戶ID,年齡,累計(jì)購(gòu)買(mǎi)金額,收入,家庭人口,性別,10985,46,1843,中等,4,女,18595,49,0,中等,2,男,47382,61,3628,低,5,男,74912,36,18463,高,6,女,95623,29,8463,高,3,男,85526,32,274,中等,2,男,58753,52,1846,低,2,女,64957,48,0,中等,3,女,76957,27,21634,高,5,男,65839,45,842,低,1,女,6.2.3,遺傳算法型現(xiàn)代挖掘技術(shù),所有的生物個(gè)體按順序排放在一張二維表格上,使每個(gè)生物體的上、下、左、右都與其它
15、生物體相鄰接。,(1)競(jìng)爭(zhēng)復(fù)制,(2)雜交繁殖,(3)異變處理,年齡下限,年齡上限,高收入,中等收入,低收入,人口少,人口一般,人口多,客戶群1,38,64,是,是,否,否,是,是,客戶群2,26,50,是,否,是,是,否,是,客戶群3,20,40,否,是,是,是,否,否,6.2.4,粗糙集型現(xiàn)代挖掘技術(shù),1,粗糙集技術(shù),2.,粗糙集的應(yīng)用,表中的970230、980304、990211客戶的“贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品”屬性是相似的;980304、990327客戶的“挑選產(chǎn)品時(shí)間很長(zhǎng)”和“客戶流失”屬性是相似的;970230、990211客戶的“贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品”、“挑選產(chǎn)品時(shí)間很長(zhǎng)”和“距最后一
16、次銷售時(shí)間”屬性是相似的;這樣,圍繞“贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品”屬性就可以產(chǎn)生兩個(gè)初等集合:970230、980304、990211和970102、980625、990327;而“贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品”和“挑選產(chǎn)品時(shí)間很長(zhǎng)”屬性可以生成三個(gè)初等集合:970102、980625、990327、970230、990211和980304。,客戶編號(hào),贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品否,挑選產(chǎn)品時(shí)間很長(zhǎng),距最后一次銷售時(shí)間,客戶流失否,970102,否,是,長(zhǎng),是,970230,是,否,長(zhǎng),是,980304,是,是,很長(zhǎng),是,980625,否,是,正常,否,990211,是,否,長(zhǎng),否,990327,否,是,很長(zhǎng),是,6.2.4,粗糙集型現(xiàn)代挖掘技術(shù),因?yàn)榭蛻?970230,已經(jīng)流失,而客戶,990211,沒(méi)有流失,由于屬性“贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品”、“,挑選產(chǎn)品時(shí)間很長(zhǎng)”和“距最后一次銷售時(shí)間”是相似的。因此,客戶流失不能以屬性“贊揚(yáng)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品”、“,挑選產(chǎn)品時(shí)間很長(zhǎng)”和“距最后一次銷售時(shí)間”作為特征進(jìn)行描述。,而,970230,、,990211,就是邊界實(shí)例,即它們不能根據(jù)有效知識(shí)進(jìn)行適當(dāng)?shù)姆诸?。余下的客?9
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國(guó)有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅(jiān)決打好反腐敗斗爭(zhēng)攻堅(jiān)戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風(fēng)清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會(huì)上和基層單位調(diào)研座談會(huì)上的發(fā)言材料
- 總工會(huì)關(guān)于2025年維護(hù)勞動(dòng)領(lǐng)域政治安全的工作匯報(bào)材料
- 基層黨建工作交流研討會(huì)上的講話發(fā)言材料
- 糧食和物資儲(chǔ)備學(xué)習(xí)教育工作部署會(huì)上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機(jī)關(guān)單位、市紀(jì)委監(jiān)委2025年工作計(jì)劃
- 檢察院政治部關(guān)于2025年工作計(jì)劃
- 辦公室主任2025年現(xiàn)實(shí)表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項(xiàng)規(guī)定精神學(xué)習(xí)教育工作部署會(huì)議上的講話發(fā)言材料4篇
- 開(kāi)展深入貫徹規(guī)定精神學(xué)習(xí)教育動(dòng)員部署會(huì)上的講話發(fā)言材料3篇
- 在司法黨組中心學(xué)習(xí)組學(xué)習(xí)會(huì)上的發(fā)言材料
- 國(guó)企黨委關(guān)于推動(dòng)基層黨建與生產(chǎn)經(jīng)營(yíng)深度融合工作情況的報(bào)告材料
- 副書(shū)記在2025年工作務(wù)虛會(huì)上的發(fā)言材料2篇
相關(guān)資源
更多