《數(shù)據(jù)挖掘中的特征選擇》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘中的特征選擇(40頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,數(shù)據(jù)挖掘中的特征選擇,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,數(shù)據(jù)挖掘中的特征選擇,*,數(shù)據(jù)挖掘中的數(shù)據(jù)歸約問題,為什么需要數(shù)據(jù)挖掘,數(shù)據(jù)爆炸問題,自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。,我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息,數(shù)據(jù)爆炸但知識(shí)貧乏,2024/11/28,2,數(shù)據(jù)挖掘中的特征選擇,數(shù)據(jù)挖掘的作用,數(shù)據(jù)挖掘:,在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束),數(shù)據(jù)挖掘,是一
2、種從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。它綜合了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù),數(shù)據(jù)挖掘,數(shù),據(jù),庫,越,來,越,大,有價(jià)值的知識(shí),海量的數(shù)據(jù),數(shù)據(jù)挖掘的應(yīng)用,數(shù)據(jù)分析和決策支持,市場分析和管理,客戶關(guān)系管理,(CRM),,市場占有量分析,交叉銷售,目標(biāo)市場,風(fēng)險(xiǎn)分析和管理,風(fēng)險(xiǎn)預(yù)測,客戶保持,保險(xiǎn)業(yè)的改良,質(zhì)量控制,競爭分析,欺騙檢測和異常模式的監(jiān)測,(,孤立點(diǎn),),其他的應(yīng)用,文本挖掘,(,新聞組,電子郵件,文檔,),和,Web,挖掘,流數(shù)據(jù)挖掘,DNA,和生物數(shù)據(jù)分析,數(shù)據(jù)挖掘,:,數(shù)據(jù)庫中的知識(shí)挖掘,(KDD),數(shù)據(jù)挖掘,知識(shí)挖掘的核心,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)庫,數(shù)據(jù)倉庫,Knowledg
3、e,任務(wù)相關(guān)數(shù)據(jù),選擇,數(shù)據(jù)挖掘,模式評(píng)估,數(shù)據(jù)挖掘的步驟,了解應(yīng)用領(lǐng)域,了解相關(guān)的知識(shí)和應(yīng)用的目標(biāo),創(chuàng)建目標(biāo)數(shù)據(jù)集,:,選擇數(shù)據(jù),數(shù)據(jù)清理和預(yù)處理,:(,這個(gè)可能要占全過程,60,的工作量,),數(shù)據(jù)縮減和變換,找到有用的特征,維數(shù)縮減,/,變量縮減,不變量的表示,選擇數(shù)據(jù)挖掘的功能,數(shù)據(jù)總結(jié),分類模型數(shù)據(jù)挖掘,回歸分析,關(guān)聯(lián)規(guī)則挖掘,聚類分析等,選擇挖掘算法,數(shù)據(jù)挖掘,:,尋找感興趣的模式,模式評(píng)估和知識(shí)表示,可視化,轉(zhuǎn)換,消除冗余模式等等,運(yùn)用發(fā)現(xiàn)的知識(shí),數(shù)據(jù)挖掘和商業(yè)智能,支持商業(yè)決策的潛能不斷增長,最終用戶,商業(yè)分析家,數(shù)據(jù)分析家,DBA,決策支持,數(shù)據(jù)表示,可視化技術(shù),數(shù)據(jù)挖掘,信息
4、發(fā)現(xiàn),數(shù)據(jù)探索,在線分析處理(,OLAP),,多維分析,(MDA,),統(tǒng)計(jì)分析,查詢和報(bào)告,數(shù)據(jù)倉庫,/,數(shù)據(jù)市場,數(shù)據(jù)源,論文,文件,信息提供商,數(shù)據(jù)庫系統(tǒng),聯(lián)機(jī)事務(wù)處理系統(tǒng),(OLTP,),典型數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)倉庫,數(shù)據(jù)清洗,過濾,數(shù)據(jù)庫,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器,數(shù)據(jù)挖掘引擎,模式評(píng)估,圖形用戶界面,知識(shí)庫,數(shù)據(jù)集成,數(shù)據(jù)挖掘,:,多個(gè)學(xué)科的融合,數(shù)據(jù)挖掘,數(shù)據(jù)庫系統(tǒng),統(tǒng)計(jì)學(xué),其他學(xué)科,算法,機(jī)器學(xué)習(xí),可視化,數(shù)據(jù)挖掘的分類,預(yù)言,(,Predication,):,用歷史預(yù)測未來,描述(,Description,):,了解數(shù)據(jù)中潛在的規(guī)律,數(shù)據(jù)挖掘的主要方法,分類(,Classifica
5、tion,),聚類,(Clustering),相關(guān)規(guī)則,(Association Rule),回歸,(Regression),其他,特征歸約在數(shù)據(jù)挖掘中的作用,因?yàn)樵谖谋痉诸?、信息檢索和生物信息學(xué)等數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域中,數(shù)據(jù)的維數(shù)往往是很高的。,高維的數(shù)據(jù)集中包含了大量的特征,(,屬性,),。比如一個(gè)文本數(shù)據(jù)集中,每一個(gè)文本都可以用一個(gè)向量來表示,向量中的每一個(gè)元素就是每一個(gè)詞在該文本中出現(xiàn)的頻率。在這種情況下,這個(gè)數(shù)據(jù)集中就存在著成千上萬的特征。這種高維的數(shù)據(jù)給數(shù)據(jù)挖掘帶來了,“,維災(zāi)難,”,(The Curse of Dimensionality),問題。,特征選擇和特征降維是兩類特征歸約
6、方法。,特征選擇,特征選擇的一般過程包括:首先從特征全集中產(chǎn)生出一個(gè)特征子集,然后用評(píng)價(jià)函數(shù)對該特征子集進(jìn)行評(píng)價(jià),評(píng)價(jià)的結(jié)果與停止準(zhǔn)則進(jìn)行比較,若評(píng)價(jià)結(jié)果比停止準(zhǔn)則好就停止,否則就繼續(xù)產(chǎn)生下一組特征子集,繼續(xù)進(jìn)行特征選擇。選出來的特征子集一般還要驗(yàn)證其有效性。,特征選擇的過程,(M.Dash and H.Liu 1997),特征選擇大體上可以看作是一個(gè)搜索過程,搜索空間中的每一個(gè)狀態(tài)都可以看成是一個(gè)可能特征子集。,搜索的算法分為完全搜索,(Complete),,啟發(fā)式搜索,(Heuristic),,隨機(jī)搜索,(Random)3,大類。,完全搜索分為窮舉搜索與非窮舉搜索兩類。,(1),廣度優(yōu)先搜
7、索,(BFS),(2),分支限界搜索,(BAB),(3),定向搜索,(BS),(4),最優(yōu)優(yōu)先搜索,(Best First Search),啟發(fā)式搜索,(1),序列前向選擇,(SFS),(2),序列后向選擇,(SBS),(3),雙向搜索,(BDS),(4),增,L,去,R,選擇算法,(LRS),(5),序列浮動(dòng)選擇,(Sequential Floating Selection),(6),決策樹,(DTM),隨機(jī)算法,(1),隨機(jī)產(chǎn)生序列選擇算法,(RGSS),(2),模擬退火算法,(SA),(3),遺傳算法,(GA),特征的評(píng)價(jià)函數(shù),特征的評(píng)估函數(shù)分為五類:相關(guān)性,距離,信息增益,一致性和分類
8、錯(cuò)誤率。,常用的有平方距離,歐氏距離,非線性測量,,Minkowski,距離,信息增益,最小描述長度,互信息,依賴性度量或相關(guān)性度量,一致性度量,分類錯(cuò)誤率,分類正確率,特征選擇方法的模型,一般地,特征選擇方法可以分為三種模型,分別是:過濾模型、封裝模型和混合模型。,過濾模型:,根據(jù)訓(xùn)練集進(jìn)行特征選擇,在特征選擇的過程中并不涉及任何學(xué)習(xí)算法。即特征子集在學(xué)習(xí)算法運(yùn)行之前就被單獨(dú)選定。但學(xué)習(xí)算法用于測試最終特征子集的性能。,過濾模型簡單且效率很高。由于過濾模型中的特征選擇過程獨(dú)立于學(xué)習(xí)算法,這就容易與后面的學(xué)習(xí)算法產(chǎn)生偏差,因此為了克服這個(gè)缺點(diǎn)提出了封裝模型。,基于過濾模型的算法主要有兩類:特征
9、權(quán)重和子集搜索。,這兩類算法的不同之處在于是對單個(gè)特征進(jìn)行評(píng)價(jià)還是對整個(gè)特征子集進(jìn)行評(píng)價(jià)。,特征權(quán)重算法對每個(gè)特征指定一個(gè)權(quán)值,并按照它與目標(biāo)概念的相關(guān)度對其進(jìn)行排序,如果一個(gè)特征的相關(guān)度權(quán)值大于某個(gè)閾值,則認(rèn)為該特征優(yōu)秀,并且選擇該特征。該算法缺點(diǎn)在于:他們可以捕獲特征與目標(biāo)概念間的相關(guān)性,卻不能發(fā)現(xiàn)特征間的冗余性。而經(jīng)驗(yàn)證明除了無關(guān)特征對學(xué)習(xí)任務(wù)的影響,冗余特征同樣影響學(xué)習(xí)算法的速度和準(zhǔn)確性,也應(yīng)盡可能消除冗余特征。,Relief,算法是一個(gè)比較著名的特征權(quán)重類方法。,子集搜索算法通過在一定的度量標(biāo)準(zhǔn)指導(dǎo)下遍歷候選特征子集,對每個(gè)子集進(jìn)行優(yōu)劣評(píng)價(jià),當(dāng)搜索停止時(shí)即可選出最優(yōu)(或近似最優(yōu))的特
10、征子集。,封裝模型:,在此模型中,學(xué)習(xí)算法封裝在特征選擇的過程中,用特征子集在學(xué)習(xí)算法上得到的挖掘性能作為特征子集優(yōu)劣的評(píng)估準(zhǔn)則。在初始特征空間內(nèi)進(jìn)行多次搜索,直至得到最佳的特征子集。,與過濾模型相比,封裝模型具有更高的精度,但效率較低,運(yùn)行速度慢于過濾模型。,過濾模型與包裹模型的根本區(qū)別在于對學(xué)習(xí)算法的使用方式。,混合模型:,由于過濾模型與封裝模型之間的互補(bǔ)性,混合模型把這兩種模型進(jìn)行組合,也就是先用過濾模式進(jìn)行初選,再用封裝模型來獲得最佳的特征子集。,數(shù)據(jù)降維,數(shù)據(jù)降維是指通過線性或非線性映射將樣本空間從高維空間映射到低維空間。,降維方法主要分為兩類:線性或非線性。,數(shù)據(jù)降維是指通過線性或
11、非線性映射將樣本空間從高維空間映射到低維空間。,降維方法主要分為兩類:線性或非線性。而非線性降維方法又可分為基于核函數(shù)和基于特征值的方法。,線性降維方法有:,主成分分析,(PCA),,獨(dú)立成分分析,(ICA),,線性判別分析,(PCA),,局部特征分析,(LFA),。,基于核函數(shù)的非,線性降維方法有:,基于核函數(shù)的,主成分分析,(KPCA),,,基于核函數(shù),獨(dú)立成分,(KICA),,,基于核函數(shù)的,判別分析,(KLDA),。,基于特征值,(,流形,),的非,線性降維方法有:,ISOMAP(Isometric,feature mapping),,局部線性嵌入,(LLE),,拉普拉斯特征映射,(L
12、E),。,成果,結(jié)合,LDA,與二分,K,均值聚類的特點(diǎn),提出了針對高維數(shù)據(jù)集的自適應(yīng)聚類方法。利用線性判別分析,(LDA),來實(shí)現(xiàn)維歸約,然后在低維數(shù)據(jù)集上執(zhí)行二分,k,均值聚類來生成類。低維空間的聚類結(jié)果又可以通過某種機(jī)制構(gòu)造出原數(shù)據(jù)集上的類。然后在此基礎(chǔ)上再利用,LDA,進(jìn)行維歸約,這個(gè)過程反復(fù)進(jìn)行下去,不斷地修正前面得到的聚類結(jié)果,直到得到全局最優(yōu)。,結(jié)合某種基于標(biāo)準(zhǔn)化互信息和遺傳算法提出所謂的兩階段特征選擇方法。該方法首先采用標(biāo)準(zhǔn)化的互信息對特征進(jìn)行排序,然后使用排序在前的特征初始化第二階段遺傳算法的部分種群,使得遺傳算法的初始種群中含有較好的搜索起點(diǎn),使遺傳算法只采用較小的進(jìn)化代數(shù)就可搜尋到較優(yōu)的特征子集。,設(shè)想,結(jié)合某種特征選擇和智能優(yōu)化算法研究新型的兩階段特征選擇方法。利用已有的特征選擇算法得出一個(gè)特征子集,從而為智能優(yōu)化算法提供一個(gè)較好的初始的搜索起點(diǎn),然后利用智能優(yōu)化算法只采用較小的進(jìn)化代數(shù)就可搜尋到較優(yōu)的特征子集。,