《數(shù)據(jù)挖掘技術(shù)》PPT課件
《《數(shù)據(jù)挖掘技術(shù)》PPT課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)挖掘技術(shù)》PPT課件(176頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、信息管理與信息系統(tǒng)專業(yè)課程課程第三講第三講 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)-國民經(jīng)濟(jì)和社會(huì)的信息化國民經(jīng)濟(jì)和社會(huì)的信息化數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大數(shù)據(jù)庫越來越大有價(jià)值的知識(shí)有價(jià)值的知識(shí)可怕的數(shù)據(jù)可怕的數(shù)據(jù) 苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!n模式模式n趨勢(shì)趨勢(shì)n事實(shí)事實(shí)n關(guān)系關(guān)系n模型模型n關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n序列序列n目標(biāo)市場(chǎng)目標(biāo)市場(chǎng)n資金分配資金分配n貿(mào)易選擇貿(mào)易選擇n在哪兒做廣告在哪兒做廣告n銷售的地理位置銷售的地理位置n金融金融n經(jīng)濟(jì)經(jīng)濟(jì)n政府政府nPOS.n人口統(tǒng)計(jì)人口統(tǒng)計(jì)n生命周期生命周期l1989 IJCAI會(huì)議:數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)討論專題Knowledge Discovery
2、 in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)l1991-1994 KDD討論專題Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)l1995-1998 KDD國際會(huì)議(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)l1998 ACM SIGKDD,SIGKDD1999-2002 會(huì)議,以及SIGK
3、DD Explorationsl數(shù)據(jù)挖掘方面更多的國際會(huì)議PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.l技術(shù)分類 預(yù)言(Predication):用歷史預(yù)測(cè)未來 描述(Description):了解數(shù)據(jù)中潛在的規(guī)律l數(shù)據(jù)挖掘技術(shù) 關(guān)聯(lián)分析 序列模式 分類(預(yù)言)聚集 異常檢測(cè)礦山(數(shù)據(jù))挖掘工具(算法)金子(知識(shí))分類條件1分類條件2分類條件3類1類2類3類4代代特征特征數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法集成集成分布計(jì)算分布計(jì)算模型模型數(shù)據(jù)模型數(shù)據(jù)模型第一代第一代數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘作為一個(gè)獨(dú)立的應(yīng)一個(gè)獨(dú)立的應(yīng)用用支持一個(gè)或者支持一個(gè)
4、或者多個(gè)算法多個(gè)算法 獨(dú)立的系獨(dú)立的系統(tǒng)統(tǒng)單個(gè)機(jī)單個(gè)機(jī)器器向量數(shù)據(jù)向量數(shù)據(jù)第二代第二代和數(shù)據(jù)庫以及和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成數(shù)據(jù)倉庫集成多個(gè)算法:能夠多個(gè)算法:能夠挖掘一次不能放挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系數(shù)據(jù)管理系統(tǒng),包括數(shù)統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)據(jù)庫和數(shù)據(jù)倉庫倉庫同質(zhì)同質(zhì)/局局部區(qū)域部區(qū)域的計(jì)算的計(jì)算機(jī)群集機(jī)群集有些系統(tǒng)支有些系統(tǒng)支持對(duì)象、文持對(duì)象、文本、和連續(xù)本、和連續(xù)的媒體數(shù)據(jù)的媒體數(shù)據(jù)第三代第三代和預(yù)言模型和預(yù)言模型系統(tǒng)集成系統(tǒng)集成 多個(gè)算法多個(gè)算法數(shù)據(jù)管理和數(shù)據(jù)管理和預(yù)言模型系預(yù)言模型系統(tǒng)統(tǒng)intranet/extranet網(wǎng)網(wǎng)絡(luò)計(jì)算絡(luò)計(jì)算支持半結(jié)構(gòu)支持半結(jié)構(gòu)化 數(shù)
5、據(jù) 和化 數(shù) 據(jù) 和webweb數(shù)據(jù)數(shù)據(jù)第四代第四代和移動(dòng)數(shù)據(jù)和移動(dòng)數(shù)據(jù)/各種計(jì)算數(shù)各種計(jì)算數(shù)據(jù)聯(lián)合據(jù)聯(lián)合 多個(gè)算法多個(gè)算法數(shù)據(jù)管理、數(shù)據(jù)管理、預(yù)言模型、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)系統(tǒng)移動(dòng)和各移動(dòng)和各種計(jì)算設(shè)種計(jì)算設(shè)備備普 遍 存 在普 遍 存 在的 計(jì) 算 模的 計(jì) 算 模型型訓(xùn)練數(shù)據(jù)集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分類算法IF rank
6、=professorOR years 6THEN tenured=yes 分類規(guī)則分類規(guī)則測(cè)試集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知數(shù)據(jù)(Jeff,Professor,4)Tenured?)()()|()|(DPhPhDPDhP 線性回歸和多元回歸 非線性回歸211)()(SiiiSiixxyyxxxy npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3(
7、).ndnd0dd(3,10d(2,1)0.).211nffffxx(xn m|)|.|(|121fnffffffmxmxmxnsffififsmx zqqppqqjxixjxixjxixjid)|.|(|),(2211|.|),(2211ppjxixjxixjxixjid)|.|(|),(2222211ppjxixjxixjxixjid11fififMrz,.,1fifMr)(1)()(1),(fijpffijfijpfdjid11fifMrzif交易ID購買的商品2000A,B,C1000A,C4000A,D5000B,E,F買尿布的客買尿布的客戶戶二者都買二者都買的客戶的客戶買啤酒的客戶
8、買啤酒的客戶交易ID購買商品2000A,B,C1000A,C4000A,D5000B,E,F頻繁項(xiàng)集支持度A75%B50%C50%A,C50%最小值尺度 50%最小可信度 50%食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃TID ItemsT1111,121,211,221T2111,211,222,323T3112,122,221,411T4111,121T5111,122,211,221,413牛奶牛奶support=10%酸奶酸奶 support=6%脫脂奶脫脂奶support=4%層層 1min_sup=5%層層 2min_sup=5%酸奶酸奶 support=6%脫脂奶脫脂奶 support=
9、4%層層 1min_sup=5%層層 2min_sup=3%牛奶牛奶support=10%n空間關(guān)系的層次:n“g_close_to”:鄰近,接觸,交叉,包含n先搜索粗糙的關(guān)系然后再精化(income)(age)()(buys)(age,income)(age,buys)(income,buys)(age,income,buys)age(X,”30-34”)income(X,”24K-48K”)buys(X,”high resolution TV”)價(jià)格($)等寬(寬度$10)等深(深度 2)基于距離70,107,207,72011,2022,5020,222221,3051,5350,535
10、031,405141,505351,60)1(),()(11 NNXtXtdistXSdjiNiNjXXdCdX0)(0sCX關(guān)聯(lián)規(guī)則可視化關(guān)聯(lián)規(guī)則可視化Using Plane Graph關(guān)聯(lián)規(guī)則可視化關(guān)聯(lián)規(guī)則可視化Using Rule Graphl序列序列是序列是序列的子序列的子序列l(wèi)序列序列是長(zhǎng)度為是長(zhǎng)度為3的序列模式的序列模式代代特征特征數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法集成集成分布計(jì)算分布計(jì)算模型模型數(shù)據(jù)模型數(shù)據(jù)模型第一第一代代作為一個(gè)獨(dú)作為一個(gè)獨(dú)立的應(yīng)用立的應(yīng)用支持一個(gè)或者支持一個(gè)或者多個(gè)算法多個(gè)算法 獨(dú)立的系統(tǒng)獨(dú)立的系統(tǒng)單個(gè)機(jī)器單個(gè)機(jī)器向量數(shù)據(jù)向量數(shù)據(jù)第二第二代代和數(shù)據(jù)庫以和數(shù)據(jù)庫以及數(shù)據(jù)倉
11、庫及數(shù)據(jù)倉庫集成集成多個(gè)算法:能多個(gè)算法:能夠挖掘一次不夠挖掘一次不能放進(jìn)內(nèi)存的能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)管理系數(shù)據(jù)管理系統(tǒng),包括數(shù)統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)據(jù)庫和數(shù)據(jù)倉庫倉庫同質(zhì)、局同質(zhì)、局部區(qū)域的部區(qū)域的計(jì)算機(jī)群計(jì)算機(jī)群集集有些系統(tǒng)支持有些系統(tǒng)支持對(duì)象對(duì)象,文本和文本和連續(xù)的媒體數(shù)連續(xù)的媒體數(shù)據(jù)據(jù)第三第三代代和預(yù)言模型和預(yù)言模型系統(tǒng)集成系統(tǒng)集成 多個(gè)算法多個(gè)算法數(shù)據(jù)管理和數(shù)據(jù)管理和預(yù)言模型系預(yù)言模型系統(tǒng)統(tǒng)intranet/extranet網(wǎng)網(wǎng)絡(luò)計(jì)算絡(luò)計(jì)算支持半結(jié)構(gòu)化支持半結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)和webweb數(shù)數(shù)據(jù)據(jù)第四第四代代和移動(dòng)數(shù)據(jù)和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)備的數(shù)據(jù)聯(lián)合合 多個(gè)算法多
12、個(gè)算法數(shù)據(jù)管理、數(shù)據(jù)管理、預(yù)言模型、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)系統(tǒng)移動(dòng)和各移動(dòng)和各種計(jì)算設(shè)種計(jì)算設(shè)備備普遍存在的計(jì)普遍存在的計(jì)算模型算模型 第一代數(shù)據(jù)挖掘軟件l特點(diǎn) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data)數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-)l缺陷 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。第一代數(shù)據(jù)挖掘軟件第一代數(shù)據(jù)挖掘軟件CBA 新加坡國立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)
13、規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測(cè)第二代數(shù)據(jù)挖掘軟件第二代數(shù)據(jù)挖掘軟件l特點(diǎn) 與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作l缺陷 只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)第二代數(shù)據(jù)挖掘軟件第二代數(shù)據(jù)挖掘軟件 DBMiner第二代軟件第二代軟件 SAS Enterprise Miner第三代數(shù)據(jù)挖掘軟件第三代數(shù)據(jù)挖掘軟件l
14、特點(diǎn) 和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成l缺陷不能支持移動(dòng)環(huán)境第三代軟件第三代軟件 SPSS Clementine第四代數(shù)據(jù)挖掘軟件第四代數(shù)據(jù)挖掘軟件l特點(diǎn) 目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備
15、產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。l 第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷 l 第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)測(cè)模型的使用和操作型環(huán)境的部署 l 第二代系統(tǒng)提供
16、數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 l 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 l 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo) l 獨(dú)立的數(shù)據(jù)挖掘軟件l 橫向的數(shù)據(jù)挖掘工具集l 縱向的數(shù)據(jù)挖掘解決方案獨(dú)立的數(shù)據(jù)挖掘軟件(獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前)年以前)l特點(diǎn) 獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖
17、掘算法,就形成一個(gè)軟件。這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinate visualization)。橫向的數(shù)據(jù)挖掘工具集(橫向的數(shù)據(jù)挖掘工具集(95年開始)年開始)l發(fā)展原因 隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展?,F(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或少數(shù)
18、數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型橫向的數(shù)據(jù)挖掘工具集(橫向的數(shù)據(jù)挖掘工具集(95年開始)年開始)l發(fā)展過程 隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件l特點(diǎn) 此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化 由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(Horizontal Data Mining Tools)由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具 典型的橫向工具有IBM Intelli
19、gent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 橫向的數(shù)據(jù)挖掘工具集(橫向的數(shù)據(jù)挖掘工具集(95年開始)年開始)IBM Intelligent MinerSPSS的的ClementineSAS的的Enterprise MinerSGI的的MineSetOracle Darwin縱向的數(shù)據(jù)挖掘解決方案(縱向的數(shù)據(jù)挖掘解決方案(99年開始)年開始)l發(fā)展原因 隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對(duì)算法不了解,難以得出好的模型 從19
20、99年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案 對(duì)于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中縱向的數(shù)據(jù)挖掘解決方案(縱向的數(shù)據(jù)挖掘解決方案(99年開始)年開始)在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)功能 在欺詐檢測(cè)系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型 在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能 在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測(cè)或識(shí)別難以定性的設(shè)備故障功能 在數(shù)據(jù)庫營銷中嵌入選擇最可能購買產(chǎn)品的客戶功能 在機(jī)場(chǎng)管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測(cè)、貨運(yùn)優(yōu)化功能 在
21、基因分析系統(tǒng)中嵌入DNA識(shí)別功能 在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等縱向的數(shù)據(jù)挖掘解決方案(縱向的數(shù)據(jù)挖掘解決方案(99年開始)年開始)KD1(主要用于零售業(yè))(主要用于零售業(yè))Options&Choice(主要用于保險(xiǎn)業(yè)主要用于保險(xiǎn)業(yè))HNC(欺詐行為偵測(cè))(欺詐行為偵測(cè))Unica Model 1(主要用于市場(chǎng)營銷主要用于市場(chǎng)營銷)各行業(yè)電子商務(wù)網(wǎng)站各行業(yè)電子商務(wù)網(wǎng)站算算法法層層商商業(yè)業(yè)邏邏輯輯層層行行業(yè)業(yè)應(yīng)應(yīng)用用層層商業(yè)應(yīng)用商業(yè)應(yīng)用商業(yè)模型商業(yè)模型挖掘算法挖掘算法CRM產(chǎn)品推薦產(chǎn)品推薦客戶細(xì)分客戶細(xì)分客戶流失客戶流失客戶利潤客戶利潤客戶響應(yīng)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元
22、網(wǎng)絡(luò)、偏差分析關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析WEB挖掘挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦網(wǎng)頁推薦商品推薦商品推薦?;蛲诰蚧蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析基因表達(dá)共發(fā)生分析。銀行銀行電信電信零售零售保險(xiǎn)保險(xiǎn)制藥制藥生物信息生物信息科學(xué)研究科學(xué)研究。相關(guān)行業(yè)相關(guān)行業(yè)情況概覽 2002年9月,Amazon上關(guān)于數(shù)據(jù)挖掘的書有251本()目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品()數(shù)據(jù)挖掘應(yīng)用相對(duì)廣泛 l國內(nèi)大部分處于科研階段 各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究 國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()
23、l有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用 IBM Intelligent Miner SAS Enterprise Minerl自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件 復(fù)旦德門()等l銀行 美國銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評(píng)測(cè)模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等l電子商務(wù) 網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁;自適應(yīng)網(wǎng)站l生物制藥、基因研究 DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性 l電信 欺詐甄別;客戶流失l保險(xiǎn)、零售。數(shù)據(jù)數(shù)據(jù)挖掘挖掘客戶分析析基分因其他其他保險(xiǎn)客戶保險(xiǎn)客戶證券客戶證券客戶銀行客戶銀行客戶
24、電信客戶電信客戶零售客戶零售客戶信用卡信用卡儲(chǔ)蓄卡儲(chǔ)蓄卡存折存折按揭按揭借貸借貸人類基因植物基因動(dòng)物基因特殊群體基因基因序列基因序列基因表達(dá)譜基因表達(dá)譜基因功能基因功能基因制藥基因制藥 .為什么沒有廣泛使用?l數(shù)據(jù)挖掘正在快速的發(fā)展 技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方 數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多l(xiāng)但是仍然沒有希望的高,為什么?希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利?是一種增值服務(wù)(Not bread-and-butter)不能認(rèn)為高不可攀,所以不去過問 是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問題國內(nèi)應(yīng)用存在的問題l 數(shù)據(jù)積累不充分、不全面l 業(yè)務(wù)模型構(gòu)建困難l 缺少有經(jīng)驗(yàn)的實(shí)施者Debt$4
25、0KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標(biāo)市場(chǎng) 價(jià)格彈性分析 客戶細(xì)分 市場(chǎng)細(xì)分 傾向性分析 客戶
26、保留 目標(biāo)市場(chǎng) 欺詐檢測(cè)關(guān)聯(lián)分析關(guān)聯(lián)分析 AssociationAssociation 市場(chǎng)組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售 聚集(聚集(Cluster)聚集是把整個(gè)數(shù)據(jù)庫分成不同的群組。它的目的聚集是把整個(gè)數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個(gè)群之間的數(shù)是要群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。據(jù)盡量相似。常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、K均值、最近鄰均值、最近鄰客戶消費(fèi)異常行為分析模型l客戶分析業(yè)務(wù)模型 交叉銷售 客戶響應(yīng) 客戶流失 客戶利潤l信用卡分析業(yè)務(wù)模型 客戶信用等級(jí)評(píng)估 客戶透支分析 客戶利潤分析 客戶消費(fèi)行為分析 客
27、戶消費(fèi)異常行為分析MISERPCRME_BusinessCDW客戶數(shù)據(jù)倉庫數(shù)據(jù)挖掘算法庫模型庫組件庫組件庫產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)行業(yè)應(yīng)用知識(shí)CIASCIASCIASCIASCIASCIAS應(yīng)用服務(wù)器應(yīng)用服務(wù)器應(yīng)用服務(wù)器應(yīng)用服務(wù)器應(yīng)用服務(wù)器應(yīng)用服務(wù)器信息系統(tǒng)信息系統(tǒng)信息系統(tǒng)信息系統(tǒng)信息系統(tǒng)信息系統(tǒng) 行業(yè)分析行業(yè)分析行業(yè)分析行業(yè)分析行業(yè)分析行業(yè)分析客戶響應(yīng)模型客戶響應(yīng)模型基本概念基本概念用哪一種數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)?用哪一種數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)?l 與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成l 與預(yù)言模型系統(tǒng)集成 l 挖掘各種復(fù)雜類型的數(shù)據(jù)l 與應(yīng)用相結(jié)合 l 研制和開發(fā)數(shù)據(jù)挖掘標(biāo)準(zhǔn) l 支持移動(dòng)環(huán)境生產(chǎn)
28、過程工藝參數(shù) 1(連續(xù)型時(shí)間序列)工藝參數(shù) 2(離散型時(shí)間序列)產(chǎn)品質(zhì)量(離散型時(shí)間序列)質(zhì)量檢驗(yàn)!t0t1t2t3T預(yù)熱階段加熱階段均熱階段TT1T2T3vx1x2x3質(zhì)量檢驗(yàn)!0 x預(yù)熱區(qū)加熱區(qū)均熱區(qū)t0t1t2t3質(zhì)量檢驗(yàn)!TT1T3T2生產(chǎn)過程生產(chǎn)過程X:工藝參數(shù)時(shí)間序列Y:質(zhì)量檢測(cè)結(jié)果tXtYttx1(t)y1y2y3x2(t)x3(t)XY1,2,(),)iiinx ty樣本111(),)x ty樣本222(),)x ty樣本333(),)x tyT1T2T3vx1x2x3tT3T2T10質(zhì)量檢驗(yàn)!0T1T2T3Ttt1x1/vt2x2/vt3x3/v0質(zhì)量檢驗(yàn)!t1t2t3T1T
29、3T2質(zhì)量檢驗(yàn)!tT3T2T10t1t2t3質(zhì)量檢驗(yàn)!T組裝前t0t1t2t3T組裝后樣本模式抽取1,2,(),)iiinx ty1,2,(,)iiinm y數(shù)據(jù)挖掘數(shù)據(jù)挖掘生產(chǎn)歷史數(shù)據(jù)質(zhì)量問題分析 尋找質(zhì)量事故的原因(質(zhì)量分析):相關(guān)分析問題:發(fā)生質(zhì)量事故后,分析導(dǎo)致該事故的可能原因。這也是一種離線應(yīng)用。避免質(zhì)量事故的發(fā)生(質(zhì)量預(yù)測(cè)):設(shè)計(jì)驗(yàn)證問題:設(shè)計(jì)新的工藝參數(shù)組合時(shí),質(zhì)量模型用于根據(jù)工藝參數(shù)的設(shè)計(jì)值驗(yàn)證是否會(huì)導(dǎo)致質(zhì)量問題。這是一種離線的應(yīng)用。質(zhì)量模型質(zhì)量模型工藝設(shè)計(jì)數(shù)據(jù)產(chǎn)品質(zhì)量預(yù)測(cè)數(shù)據(jù)挖掘數(shù)據(jù)挖掘1,2,(,)iiinm y質(zhì)量分類模型數(shù)據(jù)挖掘數(shù)據(jù)挖掘1,2,(,)iiinm y質(zhì)量分析結(jié)論煙道T燃料噴嘴鋼錠翻板爐膛爐壁FGHF 燃料流量T 爐膛溫度G 翻板開度H 煙氣成分預(yù)熱段加熱段均熱段00.51.01.52.0tT80012001600002000典型加熱工藝
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 6.煤礦安全生產(chǎn)科普知識(shí)競(jìng)賽題含答案
- 2.煤礦爆破工技能鑒定試題含答案
- 3.爆破工培訓(xùn)考試試題含答案
- 2.煤礦安全監(jiān)察人員模擬考試題庫試卷含答案
- 3.金屬非金屬礦山安全管理人員(地下礦山)安全生產(chǎn)模擬考試題庫試卷含答案
- 4.煤礦特種作業(yè)人員井下電鉗工模擬考試題庫試卷含答案
- 1 煤礦安全生產(chǎn)及管理知識(shí)測(cè)試題庫及答案
- 2 各種煤礦安全考試試題含答案
- 1 煤礦安全檢查考試題
- 1 井下放炮員練習(xí)題含答案
- 2煤礦安全監(jiān)測(cè)工種技術(shù)比武題庫含解析
- 1 礦山應(yīng)急救援安全知識(shí)競(jìng)賽試題
- 1 礦井泵工考試練習(xí)題含答案
- 2煤礦爆破工考試復(fù)習(xí)題含答案
- 1 各種煤礦安全考試試題含答案