數(shù)據(jù)挖掘之基本流程課件



《數(shù)據(jù)挖掘之基本流程課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘之基本流程課件(37頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,數(shù)據(jù)挖掘之基本流程,數(shù)據(jù)挖掘之基本流程,1.,什么是數(shù)據(jù)挖掘?,2.,數(shù)據(jù)挖掘的基本方法?,1,內(nèi)容回顧,數(shù)據(jù)挖掘(英語:,Data mining,),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:,Knowledge-Discovery in Databases,,簡稱:,KDD),中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,。,1.什么是數(shù)據(jù)挖掘?1內(nèi)容回顧數(shù)據(jù)挖掘(英語:Data mi,(,a,)根據(jù)性別劃分公司的顧客。,(,b,)根據(jù)可贏利性劃分公司的顧客。,(
2、,c,)預(yù)測投一對骰子的結(jié)果。,(,d,)使用歷史記錄預(yù)測某公司未來的股票價(jià)格。,2,下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù),?,簡單陳述你的理由?,(a)根據(jù)性別劃分公司的顧客。(b)根據(jù)可贏利性劃分公司的顧,理解什么是,KDD(,知識發(fā)現(xiàn),),與,KDD,的基本流程;,了解,CRISP DM,的含義與基本流程;,了解數(shù)據(jù),挖掘的基本,流程;,理解并掌握使用,SPSS Modeler,進(jìn)行數(shù)據(jù)挖掘的基本方法;,3,內(nèi)容要點(diǎn),理解什么是KDD(知識發(fā)現(xiàn))與KDD的基本流程;3內(nèi)容要點(diǎn),4,KDD(,Knowledge Discovery in Database,)-,知識發(fā)現(xiàn),知識發(fā)現(xiàn),知識發(fā)現(xiàn)是從數(shù)
3、據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程,。,1.,什么是知識?,2.,知識發(fā)現(xiàn)的概念描述!,概念,規(guī)律,模式,規(guī)則,約束,4KDD(Knowledge Discovery in Da,5,知識發(fā)現(xiàn)過程,數(shù)據(jù)集,變換后數(shù)據(jù),預(yù)處理數(shù)據(jù),目標(biāo)數(shù)據(jù),選取抽樣,變換,預(yù)處理,知識,數(shù)據(jù)挖掘,解釋評價(jià),抽取的信息,可視化,知識發(fā)現(xiàn)過程示意圖,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘,結(jié)果表達(dá)與解釋,選擇算法主要考慮兩個(gè)因素:,一是盡量選取與數(shù)據(jù)特征相關(guān)的算法,二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求。,數(shù)據(jù)挖掘質(zhì)量的好壞有兩個(gè),影響要素,:,一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性;,二是用于采掘的數(shù)據(jù)的質(zhì)量和
4、數(shù)量,5 知識發(fā)現(xiàn)過程數(shù)據(jù)集變換后數(shù)據(jù)預(yù)處理數(shù)據(jù),6,知識發(fā)現(xiàn)的任務(wù),知識發(fā)現(xiàn)的任務(wù),數(shù)據(jù)總結(jié),概念描述,分類與預(yù)測,聚類分析,關(guān)聯(lián)分析,異常分析,建模,6知識發(fā)現(xiàn)的任務(wù)知識發(fā)現(xiàn)的任務(wù)數(shù)據(jù)總結(jié)概念描述分類與預(yù)測聚,7,一、數(shù)據(jù)總結(jié),數(shù)據(jù)總結(jié)的目的:對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,數(shù)據(jù)總結(jié)的方法:傳統(tǒng)的也是最簡單的方法是對數(shù)據(jù)庫的各個(gè)字段求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示,7一、數(shù)據(jù)總結(jié)數(shù)據(jù)總結(jié)的目的:對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描,8,二,、概念描述,一個(gè)對含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行,概述性,的總結(jié)并獲得,簡明,、,準(zhǔn)確,的描述,這種描述就稱為概念描述(,co
5、ncept description,)。,例子,:一個(gè)數(shù)據(jù)挖掘系統(tǒng)需要從我校職工數(shù)據(jù)庫中,挖掘出我校講師情況的概要總結(jié),并給出(我校)講師概念描述。,提取信息,總結(jié)算法,概要總結(jié),概念描述,62%,(,age24,),8二、概念描述一個(gè)對含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行概述性的總結(jié)并,9,三、分類與預(yù)測,分類,:就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別(,class,),即將未知事例映射到某種離散類別之一。,分類通常用于預(yù)測未知數(shù)據(jù)實(shí)例的歸屬類別(有限離散值),如一個(gè)銀行客戶的信用等級是屬于,A,級、,B,級還是,C,級。,9三、分類與預(yù)測分類:就是
6、找出一組能夠描述數(shù)據(jù)集合典型特征的,10,四,、聚類分析,聚類分析(,clustering analysis,)中,首先需要根據(jù),“,各,聚集(,c,lusters,),內(nèi)部數(shù)據(jù)對象間的相似度最大化;而各聚集(,clusters,)對象間相似度最小化,”,的基本聚類分析原則,以及度量數(shù)據(jù)對象之間相似度的計(jì)算公式,將聚類分析的數(shù)據(jù)對象劃分為若干組(,groups,)。,因此一個(gè)組中數(shù)據(jù)對象間的相似度要比不同組數(shù)據(jù)對象間的相似度要大。每一個(gè)聚類分析所獲得的組就可以視為是一個(gè)同類別歸屬的數(shù)據(jù)對象集合,更進(jìn)一步從這些同類別數(shù)據(jù)集,又可以通過分類學(xué)習(xí),10四、聚類分析聚類分析(clustering an
7、alys,11,五,、關(guān)聯(lián)分析,關(guān)聯(lián)分析,(,association analysis,),:,從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識,(,又稱為關(guān)聯(lián)規(guī)則,association rules,),。關(guān)聯(lián)分析廣泛應(yīng)用于市場營銷,事務(wù)分析等應(yīng)用領(lǐng)域。,對于一個(gè)商場經(jīng)理,或許更想知道哪些商品是常在一起購買,描述這樣的情況的一條關(guān)聯(lián)規(guī)則說明如下:,11五、關(guān)聯(lián)分析關(guān)聯(lián)分析(association analy,12,六、異類分析,異類(,outlier,):,那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象就被稱為,異類,。,示例:,異類分析可以用于從大量商品購買記錄中,依據(jù)各帳戶平常所發(fā)生的購
8、買行為,發(fā)現(xiàn)正在進(jìn)行信用卡詐騙的購買行為(異類行為)。,12六、異類分析異類(outlier):那些不符合大多數(shù)數(shù)據(jù),13,七,、演化分析,數(shù)據(jù)演化分析(,evolution analysis,):,對隨時(shí)間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。,示例,:利用演化分析方法可對股市主要股票交易數(shù)據(jù)(時(shí)序數(shù)據(jù),,time-series data,)進(jìn)行分析,以便獲得整個(gè)股票市場的股票演化,規(guī)律,以及一個(gè)特定股票的變化規(guī)律,13七、演化分析數(shù)據(jù)演化分析(evolution anal,請回憶知識發(fā)現(xiàn)的過程包括哪些?,14,實(shí)踐一,請回憶知識發(fā)現(xiàn)的過程包括哪些?14實(shí)踐一,15,KDD,過程可以概
9、括為三部分,:,數(shù)據(jù)準(zhǔn)備,(Data Preparation),數(shù)據(jù)挖掘,(Data Mining),結(jié)果的解釋和評估,(Interpretation&Evaluation),。,數(shù)據(jù),目標(biāo)數(shù)據(jù),預(yù)處理,數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù),模式,知識,選擇,預(yù)處理,轉(zhuǎn)換,數(shù)據(jù)挖掘,模式評價(jià),模式評價(jià),數(shù)據(jù)挖掘,數(shù)據(jù)準(zhǔn)備,KDD,過程圖,15 KDD過程可以概括為三部分:數(shù)據(jù)準(zhǔn)備(Data Pr,數(shù)據(jù)選取,(Data Selection,),:,數(shù)據(jù)選取的目的是:確定發(fā)現(xiàn)任務(wù)的操作對象,即目標(biāo)數(shù)據(jù),(Target Data),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù),數(shù)據(jù)預(yù)處理,(Data Preprocess
10、ing,),:,一般包括:消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等,。如把連續(xù)值型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號歸納;或是把離散型數(shù)據(jù)轉(zhuǎn)換為連續(xù)值型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡(luò)計(jì)算。,16,1.,第一階段 數(shù)據(jù)準(zhǔn)備(又可分為,3,個(gè)子步驟),數(shù)據(jù)選取(Data Selection):數(shù)據(jù)選取的目的是,數(shù)據(jù)變換,(Data Transformation,),:,主要目的是:削減數(shù)據(jù)維數(shù)或降維即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量個(gè)數(shù)。,17,1.,第一階段 數(shù)據(jù)準(zhǔn)備(又可分為,3,個(gè)子步驟),數(shù)據(jù)變換(Data Transformation):主要目,首
11、先,要確定挖掘的任務(wù)或目的,如分類、聚類或關(guān)聯(lián)規(guī)則等。,確定任務(wù)后,就要決定使用的挖掘算法,;,選擇實(shí)現(xiàn)算法有兩個(gè)考慮因素,:,一是不同的數(shù)據(jù)有不同的特點(diǎn),;,二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,。,有的用戶可能希望獲取描述型的,、容易理解的知識;而有的只是希望獲取預(yù)測準(zhǔn)確度盡可能高的預(yù)測型知識。,選擇了挖掘算法后,,就可以實(shí)施數(shù)據(jù)挖掘操作,獲取有用的模式。,18,2.,第二階段 數(shù)據(jù)挖掘,首先要確定挖掘的任務(wù)或目的,如分類、聚類或關(guān)聯(lián)規(guī)則等。1,數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)評估:,可能存在冗余或無關(guān)的模式,需將其剔除,;,也可能有不滿足用戶要求模式,,則需要退回到發(fā)現(xiàn)過程前面的階段,如重新選取數(shù)
12、據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種挖掘算法等等。,另外,KDD,由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂方式,,如把分類決策樹轉(zhuǎn)換為 “,if then”,規(guī)則,。,19,3.,第三階段 結(jié)果的解釋和評估,數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)評估:19 3.第三階段,數(shù)據(jù)挖掘僅僅是整個(gè)過程中的一個(gè)步驟。,數(shù)據(jù)挖掘質(zhì)量的好壞有兩個(gè)影響要素:,一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性,;,二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)量,(,數(shù)據(jù)量的大小,),。如果選擇了錯(cuò)誤的數(shù)據(jù)或不適當(dāng)?shù)膶傩?或?qū)?shù)據(jù)進(jìn)行了不適當(dāng)?shù)霓D(zhuǎn)換則挖掘的結(jié)果不會(huì)成功。,整個(gè)挖掘過程是一個(gè)不斷
13、反饋的過程。,比如,用戶在挖掘途中發(fā)現(xiàn)選擇的數(shù)據(jù)不太滿意,或使用的技術(shù)產(chǎn)生不了期望的結(jié)果。這時(shí),用戶需要重復(fù)先前的過程,甚至從頭重新開始,。,20,數(shù)據(jù)挖掘僅僅是整個(gè)過程中的一個(gè)步驟。,數(shù)據(jù)挖掘僅僅是整個(gè)過程中的一個(gè)步驟。20數(shù)據(jù)挖掘僅僅是整個(gè)過,21,數(shù)據(jù)挖掘的常見過程模型,CRISP-DM,SEMMA,5A,21數(shù)據(jù)挖掘的常見過程模型CRISP-DMSEMMA5A,22,SEMMA,1 Sample,數(shù)據(jù)取樣,2 Explore,數(shù)據(jù)特征探索、分析和予處理,3 Modify,問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇,4Model,模型的研發(fā)、知識的發(fā)現(xiàn),5Assess,模型和知識的綜合解釋和評價(jià),2
14、2SEMMA1 Sample數(shù)據(jù)取樣2 Explore,23,5A,評價(jià)需求,Assess,存取數(shù)據(jù),Access,完備分析,Analyze,模型演示,Act,結(jié)果展現(xiàn),Automate,235A評價(jià)需求Assess存取數(shù)據(jù)Access 完備分析,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程(,CRISP,DM,),定位是面向行業(yè)、工具導(dǎo)向、面向應(yīng)用,適用于大型工業(yè)和商業(yè)實(shí)踐的一般標(biāo)準(zhǔn),24,CRISP DM,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程(CRISPDM)24CRISP D,25,CRISP-DM,1:business understanding:,即商業(yè)理解,.,在第一個(gè)階段我們必須從商業(yè)的角度上面了解項(xiàng)目的要求和最終
15、目的是什么,.,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來,.,2.data understanding:,數(shù)據(jù)的理解以及收集,對可用的數(shù)據(jù)進(jìn)行評估,.,3:data preparation:,數(shù)據(jù)的準(zhǔn)備,對可用的原始數(shù)據(jù)進(jìn)行一系列的組織以及清洗,使之達(dá)到建模需求,.,4:modeling:,即應(yīng)用數(shù)據(jù)挖掘工具建立模型,.,5:evaluation:,對建立的模型進(jìn)行評估,重點(diǎn)具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的,.,6:deployment:,部署,即將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式,25CRISP-DM1:business underst,26,CRISP-DM,商業(yè)理解
16、,商業(yè),理解,數(shù)據(jù),理解,數(shù)據(jù),準(zhǔn)備,建立,模型,模型,評估,結(jié)果,發(fā)布,確定商業(yè),目標(biāo),形勢評估,確定數(shù)據(jù),挖掘目標(biāo),制定項(xiàng)目,計(jì)劃,背景,商業(yè)目標(biāo),成功標(biāo)準(zhǔn),擁有資源,需求、假定,和限制,風(fēng)險(xiǎn)和,偶然性,專業(yè),術(shù)語,成本和,收益,數(shù)據(jù)挖掘,目標(biāo),數(shù)據(jù)挖掘,成功標(biāo)準(zhǔn),項(xiàng)目計(jì)劃,工具和方法,評估,26CRISP-DM商業(yè)理解商業(yè) 數(shù)據(jù)數(shù)據(jù)建立模型,27,CRISP-DM,數(shù)據(jù)理解,商業(yè),理解,數(shù)據(jù),理解,數(shù)據(jù),準(zhǔn)備,建立,模型,模型,評估,結(jié)果,發(fā)布,收集原始,數(shù)據(jù),數(shù)據(jù)描述,數(shù)據(jù)探索,性分析,數(shù)據(jù)質(zhì)量,描述,數(shù)據(jù)收集,報(bào)告,數(shù)據(jù)描述,報(bào)告,探索性數(shù)據(jù),分析報(bào)告,數(shù)據(jù)質(zhì)量,報(bào)告,27CRISP-DM數(shù)據(jù)理解商業(yè) 數(shù)據(jù)數(shù)據(jù)建立模型,28,CRISP-DM,數(shù)據(jù)準(zhǔn)備,商業(yè),理解,數(shù)據(jù),理解,數(shù)據(jù),準(zhǔn)備,建立,模型,模型,評估,結(jié)果,發(fā)布,選擇數(shù)據(jù),確定分析包含,/,剔除數(shù)據(jù),數(shù)據(jù)集,數(shù)據(jù)集,描述,數(shù)據(jù)清理,數(shù)據(jù)清理報(bào)告,數(shù)據(jù)重構(gòu),生成新的變量(字段),生成新的記錄,整合數(shù)據(jù),合并相關(guān)數(shù)據(jù),格式化數(shù)據(jù),改變數(shù)據(jù)格式,適應(yīng)分析,28CRISP-DM數(shù)據(jù)準(zhǔn)備商業(yè) 數(shù)據(jù)數(shù)據(jù)建立模型,29,CRIS
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年作風(fēng)建設(shè)學(xué)習(xí)教育開展情況的報(bào)告范文
- 在2025年民營企業(yè)座談會(huì)上的主持講話范文
- 在2025年全縣教育領(lǐng)域群眾身邊不正之風(fēng)和腐敗問題集中整治調(diào)度會(huì)上的講話范文
- 工委副書記在2025年機(jī)關(guān)DeepSeek應(yīng)用專題輔導(dǎo)培訓(xùn)班開班儀式上的講話范文
- 在2025年DeepSeek大模型政務(wù)應(yīng)用培訓(xùn)會(huì)上的講話范文
- 在青年干部培訓(xùn)結(jié)業(yè)典禮上的講話文稿
- 2025年副書記防汛工作會(huì)議上的講話范文
- 2025年主管商務(wù)部門黨組書記在理論學(xué)習(xí)中心組會(huì)上研討發(fā)言文稿
- 2025年國企黨委關(guān)于干部職工思想政治工作情況的報(bào)告范文
- 在機(jī)關(guān)單位作風(fēng)建設(shè)學(xué)習(xí)教育突出問題專項(xiàng)整治工作部署會(huì)議上的講話范文
- 醫(yī)院領(lǐng)導(dǎo)2025年黨風(fēng)廉政建設(shè)推進(jìn)會(huì)上的講話范文
- 2025年關(guān)于開展“以案促改”工作實(shí)施方案供參考
- 在2025年安全生產(chǎn)專項(xiàng)整治暨化工行業(yè)風(fēng)險(xiǎn)防控部署會(huì)上的講話范文
- 領(lǐng)導(dǎo)干部在“十五五”發(fā)展規(guī)劃編制啟動(dòng)會(huì)上的講話文稿
- 2025年書記在慰問老干部暨情況通報(bào)會(huì)上的主持講話提綱范文
相關(guān)資源
更多