秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展

上傳人:xiao****1972 文檔編號:253243013 上傳時間:2024-12-09 格式:PPT 頁數(shù):41 大小:280.50KB
收藏 版權申訴 舉報 下載
現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展_第1頁
第1頁 / 共41頁
現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展_第2頁
第2頁 / 共41頁
現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展_第3頁
第3頁 / 共41頁

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展》由會員分享,可在線閱讀,更多相關《現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展(41頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,第6章,現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展,本章學習目標:,(1)通過知識挖掘系統(tǒng)的體系結構的學習掌握知識發(fā)現(xiàn)的定義和知識發(fā)現(xiàn)系統(tǒng)的結構。,(2)通過現(xiàn)代挖掘技術及應用的學習掌握規(guī)則型、神經(jīng)網(wǎng)絡型、遺傳算法型、粗糙集型和決策樹型現(xiàn)代挖掘技術。,(3)通過知識發(fā)現(xiàn)工具與應用的學習掌握知識挖掘工具的系統(tǒng)結構、運用中的問題和知識挖掘的價值。,(4)經(jīng)過數(shù)據(jù)挖掘技術的發(fā)展的學習了解文本挖掘、Web挖掘、可視化數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和分布式數(shù)據(jù)挖掘。,現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展,6.1,知識挖掘系統(tǒng)的體系結構,6.2,現(xiàn)代挖掘技術及

2、應用,6.3,知識發(fā)現(xiàn)工具與應用,6.4,數(shù)據(jù)挖掘技術的發(fā)展,練 習,6.1,知識挖掘系統(tǒng)的體系結構,知識發(fā)現(xiàn)的定義,知識發(fā)現(xiàn)是用一種簡潔的方式從大量數(shù)據(jù)中抽取信息的一種技術,所抽取的信息是隱含的、未知的,并且具有潛在應用價值。,知識發(fā)現(xiàn)可看成是一種有價值信息的搜尋過程,它不必預先假設或提出問題,仍然能夠找到那些非預期的令人關注的信息,這些信息表示了不同研究對象之間的關系和模式。它還能通過全面的信息發(fā)現(xiàn)與分析,找到有價值的商業(yè)規(guī)則。,知識發(fā)現(xiàn)意味著在數(shù)據(jù)倉庫或數(shù)據(jù)集市的幾千兆、幾萬兆字節(jié)數(shù)據(jù)中尋找預先未知的商業(yè)模式與事實。,知識發(fā)現(xiàn)系統(tǒng)的結構,知識發(fā)現(xiàn)系統(tǒng)的結構由知識發(fā)現(xiàn)系統(tǒng)管理器、知識庫、商

3、業(yè)分析員、數(shù)據(jù)倉庫的數(shù)據(jù)庫接口、數(shù)據(jù)選擇、知識發(fā)現(xiàn)引擎、知識發(fā)現(xiàn)評價和知識發(fā)現(xiàn)描述等部分組成(圖,6.1,)。,數(shù)據(jù)倉庫,知識庫,數(shù)據(jù)庫接口,數(shù)據(jù)選擇,知識發(fā)現(xiàn)引擎,知識發(fā)現(xiàn)評價,知識發(fā)現(xiàn)描述,知識發(fā)現(xiàn)管理器,商業(yè)分析員,圖6.1 知識發(fā)現(xiàn)系統(tǒng)結構,1.知識發(fā)現(xiàn)系統(tǒng)管理器,控制并管理整個知識發(fā)現(xiàn)過程,2.,知識庫和商業(yè)分析員,知識庫包含了源于各方面的知識。商業(yè)分析員要按一種有效的方式指導關注信息的發(fā)現(xiàn),。,3.,數(shù)據(jù)倉庫的數(shù)據(jù)庫接口,知識發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)庫接口可以直接與數(shù)據(jù)倉庫通信。,4.,數(shù)據(jù)選擇,確定從數(shù)據(jù)倉庫中需要抽取的數(shù)據(jù)及數(shù)據(jù)結構,5.,知識發(fā)現(xiàn)引擎,將知識庫中的抽取算法提供給數(shù)據(jù)選擇

4、構件抽取的數(shù)據(jù),6.,發(fā)現(xiàn)評價,有助于商業(yè)分析員篩選模式,選出那些關注性的信息,7.,發(fā)現(xiàn)描述,發(fā)現(xiàn)、評價并輔助商業(yè)分析員在知識庫中保存關注性發(fā)現(xiàn)結果以備將來引用,并保持知識發(fā)現(xiàn)與管理人員的通信。,6.2,現(xiàn)代挖掘技術及應用,6.2.1,規(guī)則型現(xiàn)代挖掘技術及應用,1.,關聯(lián)規(guī)則的基本概念,buys(x,“computer”)=buys(x,“finacial_management_software”),age(“30.40”)income(“42000.50000”)=buys(x,“high_resolution_TV”),布爾關聯(lián)規(guī)則,量化關聯(lián)規(guī)則,單維規(guī)則,多維關聯(lián),多層關聯(lián)規(guī)則,單層關

5、聯(lián)規(guī)則,age(“30.40”)=buys(x,“IBM computer”)(6.3),age(“30.40”)=buys(x,“computer”)(6.4),2.,關聯(lián)規(guī)則的應用目標,置信度或正確率可以定義為:,(6.5),覆蓋率可以定義為,“興趣度”為目標的關聯(lián)規(guī)則,3.,關聯(lián)規(guī)則的算法,Apriori算法,1,找出所有支持度大于最小支持度的項集,這些項集稱為頻集,包含,k,個項的頻集稱為,k-,項集。,2,使用第,1,步找到的頻集產(chǎn)生所期望的規(guī)則。,Apriori,算法的第,1,步采用了遞歸方法,算法表示為,L,1,=large 1-itemsets;/,產(chǎn)生頻繁,1,項集,L,1,

6、for(k=2;L,k-1,;k+)do/,循環(huán)產(chǎn)生頻繁,2,項集,L,2,直到某個,r使L,r,為空,begin,C,k,=apriori-gen(L,k-1,);/,產(chǎn)生,k-,項集的候選集,for all transactions t,D do,begin,C,t,=subset(C,k,t);/,事務,t,中包含的候選集,for all candidates c,C,t,do,c.count+;,end,L,k,=c,C,k,|c.count,minsup,end,Answer=U,k,L,k,第,2,步算法較為簡單。如果只考慮規(guī)則的右邊只有一項的情況,給定一個頻集,Y=I,1,I,2

7、,I,3,I,k,k,2,I,j,I,,那么只有包含集合,I,1,I,2,I,3,I,k,中的項的規(guī)則最多有,k,條。這種規(guī)則形如,I,1,I,2,I,3,I,i-1,I,i+1,I,k,I,i,。這些規(guī)則置信度必須大于用戶給定的最小置信度。,數(shù)據(jù)庫D,C,1,L,1,事務標識,項集,項集,支持度,項集,支持度,A1,1,3,4,掃描數(shù)據(jù),庫D,1,2,1,2,A2,2,3,5,2,3,比較,支持度,2,3,A3,1,2,3,5,3,3,3,3,A4,2,5,4,1,5,3,5,3,由,L,1,產(chǎn)生,C,2,C,2,L,2,項集,項集,支持度,項集,支持度,1,2,掃描數(shù)據(jù),庫D,1,2,1,

8、1,2,2,1,3,1,3,2,比較,支持度,2,3,2,1,5,1,5,1,2,5,3,2,3,2,3,2,3,5,2,2,5,2,5,3,3,5,3,5,2,項集,掃描數(shù)據(jù),庫D,項集,支持度,2,3,5,2,3,5,2,由L,2,產(chǎn)生C,3,L,3,4.,關聯(lián)規(guī)則的應用,前件和后件規(guī)則中的正確率和覆蓋率,規(guī)劃覆蓋率和正確率的平衡,前件,后件,正確率,覆蓋率,百吉餅,奶油干酪,80%,5%,百吉餅,橙汁,40%,3%,百吉餅,咖啡,40%,2%,百吉餅,雞蛋,25%,2%,面包,牛奶,35%,30%,黃油,牛奶,65%,20%,雞蛋,牛奶,35%,15%,奶酪,牛奶,40%,8%,規(guī)劃覆蓋

9、率,正確率低,正確率高,覆蓋率高,規(guī)劃很少是正確的,但可以使用,規(guī)劃多數(shù)情況下是正確的,而且可以經(jīng)常使用,覆蓋率低,規(guī)劃很少是正確的,一般不被使用,規(guī)劃多數(shù)情況下是正確的,但很少被使用,6.2.2,神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術,1.,神經(jīng)網(wǎng)絡及其學習方法,神經(jīng)網(wǎng)絡的工作過程主要分兩個階段:學習階段和工作階段。,學習方式則有三種:有教師(監(jiān)督)學習、無教師(監(jiān)督)學習和強化學習。,6.2.2,神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術,2.,基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘,(1)基于自組織神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘技術,一種無教師學習過程,、,可以提取一組數(shù)據(jù)中的重要特征或某種內(nèi)在知識,(2)模糊神經(jīng)網(wǎng)絡類型數(shù)據(jù)挖掘技術,模糊BP網(wǎng)絡、

10、模糊Kohonen聚類網(wǎng)絡、模糊推理網(wǎng)絡、模糊ART模型等,模糊BP網(wǎng)絡中,樣本的希望輸出值改為樣本相對各類的希望隸屬度,輸出表達方面實現(xiàn)了模糊化,而且將樣本的隸屬度引入了權系數(shù)的修正規(guī)則中,使權系數(shù)的修正規(guī)則也實現(xiàn)了模糊化。,6.2.2,神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術,3.,后向傳播模型(,BP,Back Propagation,)及其算法,具體過程如下:,選定p個樣本;,權值初始化(隨機生成);,依次輸入樣本;,依次計算各層的輸出;,求各層的反傳誤差;,按權值調整公式修正各權值和閥值;,按新權值計算各層的輸出,直到誤差小于事先設定閥值;,變換函數(shù)可以采用這樣幾種:,階躍函數(shù)、S型函數(shù)、比例函數(shù)、符

11、號函數(shù)、,飽和函數(shù),、,雙曲函數(shù),6.2.2,神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術,4.,神經(jīng)網(wǎng)絡的應用,47歲,收入6500元,節(jié)點,借貸拖欠?,連接,0.47,0.65,0.39,Weight=0.7,Weight=0.1,年齡,收入,0.47(0.7)+0.65(0.1)0.39,6.2.3,遺傳算法型現(xiàn)代挖掘技術,1.,遺傳算法的基本原理,達爾文的“適者生存”理論、繼承的信息由基因攜帶、多個基因組成了染色體、基因座、等位基因、基因型和表現(xiàn)型,染色體對應的是一系列符號序列,通常用0、1的位串表示,進行生物的遺傳進化。在這一過程中包括三種演化操作:在父代基因群中的雙親選擇操作、兩個父代雙親產(chǎn)生子代基因的

12、交叉操作和在子代基因群體中的變異操作。,兩種數(shù)據(jù)轉換:從表現(xiàn)型到基因型的轉換,另一種是從基因型到表現(xiàn)型的轉換,遺傳算法實質上是一種繁衍、檢測和評價的迭代算法,最大優(yōu)點是問題的最優(yōu)解與初始條件無關,而且搜索最優(yōu)解的能力極強,6.2.3,遺傳算法型現(xiàn)代挖掘技術,2.,遺傳算法的處理過程,(1)編碼并生成祖先群體,要用遺傳算法解決問題,首先要定義有待解決的問題:,F=f(a,b,c),F,R,(a,b,c),F=f(a,b,c),是屬于實數(shù)域,R,的一個實數(shù),也是每一組解,(a,i,b,i,c,i,),的適應度的度量,算法的目標是找一個,(a,o,b,o,c,o,),,,使,F=f(a,o,b,o,

13、c,o,),取最大值。,(2)計算當前基因群體中所有個體的環(huán)境適合度,(3)用適應函數(shù)評價每一個體對環(huán)境的適應度,(4)選擇適應度好的生物個體進行復制,(5)選擇適應度好的生物個體進行復制交叉配對繁殖,(6)新生代的變異操作,6.2.3,遺傳算法型現(xiàn)代挖掘技術,編碼并生成祖先群體,計算當前基因群體中所有個體的適合度,是否滿足最優(yōu)解條件?,選擇群體中適應值高的個體進行復制,交叉操作,變異操作,終止,6.2.3,遺傳算法型現(xiàn)代挖掘技術,3.,遺傳算法的應用,用四個染色體來定義客戶類型:,基因1:客戶的年齡下限,基因2:客戶的年齡上限,基因3:客戶的收入水平,基因4:客戶的人口狀況(人口狀況可以分成

14、:少(1至2人)、一般(3至4人)和多(5人以上)三種狀況),客戶ID,年齡,累計購買金額,收入,家庭人口,性別,10985,46,1843,中等,4,女,18595,49,0,中等,2,男,47382,61,3628,低,5,男,74912,36,18463,高,6,女,95623,29,8463,高,3,男,85526,32,274,中等,2,男,58753,52,1846,低,2,女,64957,48,0,中等,3,女,76957,27,21634,高,5,男,65839,45,842,低,1,女,6.2.3,遺傳算法型現(xiàn)代挖掘技術,所有的生物個體按順序排放在一張二維表格上,使每個生物體

15、的上、下、左、右都與其它生物體相鄰接。,(1)競爭復制,(2)雜交繁殖,(3)異變處理,年齡下限,年齡上限,高收入,中等收入,低收入,人口少,人口一般,人口多,客戶群1,38,64,是,是,否,否,是,是,客戶群2,26,50,是,否,是,是,否,是,客戶群3,20,40,否,是,是,是,否,否,6.2.4,粗糙集型現(xiàn)代挖掘技術,1,粗糙集技術,2.,粗糙集的應用,表中的970230、980304、990211客戶的“贊揚競爭對手的產(chǎn)品”屬性是相似的;980304、990327客戶的“挑選產(chǎn)品時間很長”和“客戶流失”屬性是相似的;970230、990211客戶的“贊揚競爭對手的產(chǎn)品”、“挑選產(chǎn)

16、品時間很長”和“距最后一次銷售時間”屬性是相似的;這樣,圍繞“贊揚競爭對手的產(chǎn)品”屬性就可以產(chǎn)生兩個初等集合:970230、980304、990211和970102、980625、990327;而“贊揚競爭對手的產(chǎn)品”和“挑選產(chǎn)品時間很長”屬性可以生成三個初等集合:970102、980625、990327、970230、990211和980304。,客戶編號,贊揚競爭對手的產(chǎn)品否,挑選產(chǎn)品時間很長,距最后一次銷售時間,客戶流失否,970102,否,是,長,是,970230,是,否,長,是,980304,是,是,很長,是,980625,否,是,正常,否,990211,是,否,長,否,990327,否,是,很長,是,6.2.4,粗糙集型現(xiàn)代挖掘技術,因為客戶,970230,已經(jīng)流失,而客戶,990211,沒有流失,由于屬性“贊揚競爭對手的產(chǎn)品”、“,挑選產(chǎn)品時間很長”和“距最后一次銷售時間”是相似的。因此,客戶流失不能以屬性“贊揚競爭對手的產(chǎn)品”、“,挑選產(chǎn)品時間很長”和“距最后一次銷售時間”作為特征進行描述。,而,970230,、,990211,就是邊界實例,即它們不能根據(jù)有效知識進行適

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!