《數(shù)據(jù)挖掘概念與技術(shù)第三章》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘概念與技術(shù)第三章(38頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,2015/9/22,#,數(shù)據(jù)挖掘概念與設(shè)計,第三章 數(shù)據(jù)預處理,3.1,數(shù)據(jù)預處理,3.2,數(shù)據(jù)清理,3.3,數(shù)據(jù)集成,3.4,數(shù)據(jù)規(guī)約,3.5,數(shù)據(jù)變換與數(shù)據(jù)離散化,3.6,小結(jié),第三章 數(shù)據(jù)預處理,3.3.1,為什么要對數(shù)據(jù)預處理,低質(zhì)量的數(shù)據(jù)將導致低質(zhì)量的挖掘結(jié)果,準確性,完整性,一致性,時效性,可信性,可,解釋性,3.1,數(shù)據(jù)預處理,高質(zhì)量數(shù)據(jù),3.1.2,數(shù)據(jù)處理的主要任務(wù),數(shù)據(jù)清理,數(shù)據(jù),集成,數(shù)據(jù)歸約,數(shù)據(jù)變換,3.1,數(shù)據(jù)預處理,現(xiàn)實世界的的數(shù)據(jù)一般是不完整的,有噪聲的和不一致性的。數(shù)據(jù)清理試
2、圖填充缺失值,光滑噪聲、,識別,離,群,點、糾正數(shù)據(jù)中的不一致。,3.2.1,缺失值,1,),忽略元組,:缺少類標號時通常這么做。但是忽略的元組其他屬性也不能用,即便是有用的。,2,),人工填寫,:該方法很費事費時,數(shù)據(jù)集很大、缺失值很多時可能行不通。,3,),使用一個全局常量填充缺失值,:將缺失值的屬性用同一個常量替換。(方法簡單但不可靠),4,),使用屬性的中心度量(均值、中位數(shù))填寫缺失值,:對于正常的(對稱的)數(shù)據(jù)分布,可以使用均值;對于傾斜數(shù)據(jù)(非對稱)應該使用中位數(shù)。,5,),使用與給定元組同一類的所有樣本的屬性均值或中位數(shù),:利用另外一個屬性分類數(shù)據(jù),計算缺失值的屬性值該是多少(
3、均值或中位數(shù))。,6,),使用最可能的值填充,:,利用回歸、貝葉斯,形式化,方法,的,基于推理的工具或決策樹歸納確定,。,3.2,數(shù)據(jù)清理,3.2.2,噪聲數(shù)據(jù),噪聲,:被測量的變量的隨機誤差或方差。,1,),分箱,:,排序后的數(shù)據(jù)按等,頻(每個箱幾個值)分,箱,,然后,:,用,箱均值光滑:箱中每個值都被替換為箱中的均值。,用,箱中位數(shù)光滑:箱中的每一個只都被替換為該箱的中位數(shù)。,用,箱邊界光滑:給定箱中的最大和最小值同樣被視為箱邊界,,,箱,中每個值都被替換為最接近的邊界值。,2,),回歸,:可以用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。,3,),離,群,點分析,:通過如聚類來檢測利群點。,3.2,數(shù)據(jù)
4、清理,3.2.3,數(shù)據(jù)清理作為一個過程,數(shù)據(jù)清理的第一步是偏差,檢測。導致偏差的因素很多,認為輸入錯誤、有意錯誤、數(shù)據(jù)退化(過時數(shù)據(jù))、編碼不一致、設(shè)備錯誤、系統(tǒng)錯誤,。,如何,進行偏差檢測?,使用任何關(guān)于數(shù)據(jù)性質(zhì)的知識:元數(shù)據(jù),(,主要是描述數(shù)據(jù),屬性,(,property,)的,信息,),、數(shù)據(jù)的基本統(tǒng)計描述(均值、中位數(shù)、眾數(shù)、方差、標準差等)、唯一性規(guī)則、連續(xù)性規(guī)則、空值規(guī)則。,3.2,數(shù)據(jù)清理,數(shù)據(jù),挖掘經(jīng)常需要數(shù)據(jù)集成,合并來自多個數(shù)據(jù)存儲的數(shù)據(jù),。,3.3.1,實體識別問題,模式,集成和對象匹配可能需要技巧,例如如何讓計算機識別,customer_id,和另外一個數(shù)據(jù)庫的,cus
5、t_number,是同一屬性?,利用元數(shù)據(jù),每個屬性的元數(shù)據(jù)包括名字、含義、數(shù)據(jù)類型和屬性的值的允許范圍,以及處理空值的規(guī)則。這些元數(shù)據(jù)可以用來幫助避免模式集成的錯誤,還有助于變化,數(shù)據(jù),3.3,數(shù)據(jù)集成,3.3.2,冗余和相關(guān)分析,一,個,屬性如果,能由另一個或另一組屬性“導出”,則這個屬性可能是冗余的;屬性或維命名的不一致也可能導致結(jié)果數(shù)據(jù)集的冗余,。,1.,標稱數(shù)據(jù)的卡方相關(guān)檢驗,2.,數(shù)值數(shù)據(jù)的相關(guān)系數(shù),3.,數(shù)值數(shù)據(jù)的協(xié)方差,3.3,數(shù)據(jù)集成,1.,標稱數(shù)據(jù)的卡方相關(guān)檢驗,假設(shè),A,有,c,個不同的值,,a,1,a,2,.a,c,.,B,有,r,個不同的值,,b,1,b,2,b,r,
6、.,則,包含屬性,A,和屬性,B,的元組可以使用一個列聯(lián)表來表示,其中,A,屬性的,c,個不同值構(gòu)成表的列,,B,屬性的,r,個不同值構(gòu)成表的行。,令,(A,i,B,j,),表示屬性,A,取,a,i,而屬性,B,取,b,j,的聯(lián)合事件,即(,A=a,i,B=b,j,).,3.3,數(shù)據(jù)集成,在表中每一個可能的,(A,i,B,j,),聯(lián)合事件都有一個單元。,卡方值,的公式是:,其中,,o,ij,表示觀察到的(,A,i,B,j,),聯(lián)合事件的頻率(實際次數(shù)),。而,e,ij,表示,(A,i,B,j,),事件的期望頻率,,計算公式是:,其中,,n,是數(shù)據(jù)元組的個數(shù)。,卡方統(tǒng)計檢驗,假定屬性,A,和屬性
7、,B,是互相獨立的,,即這兩個屬性之間沒有關(guān)聯(lián)?;陲@著性水平,自由度是,(r-1)*(c-1),。,如果假設(shè)被拒絕,則,A,和,B,統(tǒng)計相關(guān),。,3.1,3.2,假設(shè)調(diào)查了,1500,個人,按性別分成男和女。每個人投票是否喜歡閱讀小說。這樣,就有了兩個屬性:,gender,和,preferred_reading.,觀察到的每個可能的聯(lián)合事件的次數(shù)在表,3.1,中,。,圓括號中的表示事件的期望次數(shù),,按照公式,3.2,計算出來的。,可以注意到,,每一行中,期望次數(shù)的總和必須和這一行的觀察次數(shù)的總和相等;每一列中,期望次數(shù)的和等于這一列的觀察次數(shù)的和。,利用公式,3.1,,計算卡方值為:,對于,
8、2,*,2,的表,自由度為,(2-1)*(2-1)=1.,在自由度為,1,時,卡方值為,10.828,則可以在,0.001,的顯著性水平上拒絕值原假設(shè)。因為計算出的值大于這個值,所以能以更小的顯著性水平,拒絕原假設(shè),,即,性別和是否喜歡讀小說之間存在強相關(guān)關(guān)系,。,2,數(shù)值數(shù)據(jù)的相關(guān)系數(shù),3.3,數(shù)據(jù)集成,對于數(shù)值型屬性,可以通過計算,相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)),來估計兩個屬性,A,和,B,之間的相關(guān)性:,其中,,n,是元組的個數(shù),,a,i,和,b,i,是元組,i,的屬性,A,和屬性,B,的值,,和,表示屬性,A,和屬性,B,的,均值,,,A,和,B,是屬性,A,和屬性,B,的,標準差,。,3
9、.3,相關(guān)系數(shù),r,AB,的值在,-1,到,+1,之間。如果,r,AB,0,,則稱,A,和,B,正相關(guān),。表示,A,的值隨著,B,的值的增大而增大。值越大,相關(guān)性越強。因此,,一個很大的值意味著,A,(或,B),需要被作為冗余刪除,。,如果,r,AB,=0,則,A,和,B,相互獨立,,它們之間沒有任何關(guān)系。如果值,0,則,A,和,B,負相關(guān),,表示一個屬性的值隨著另一個值的降低而增大。,散點圖,可以用來可視化屬性之間的關(guān)聯(lián)關(guān)系。,注意:,關(guān)聯(lián)并不表示因果,。即如果,A,和,B,相關(guān),但并不意味著,A,導致,B,或者,B,導致,A,。,例如,在分析一個人口統(tǒng)計數(shù)據(jù)庫時,我們發(fā)現(xiàn)表示醫(yī)院數(shù)目的屬性
10、和盜車數(shù)目相關(guān)。但這并不表示一個屬性導致了另外一個。兩個屬性實際上都是因為人口數(shù)這第三個屬性導致的。,3.,數(shù)值數(shù)據(jù)的協(xié)方差,3.3,數(shù)據(jù)集成,在概率理論和統(tǒng)計學中,,相關(guān)性,和,協(xié)方差,是,評價兩個屬性是否一起發(fā)生變化,的兩種相似的測量。,考慮兩個,數(shù)值型屬性,A,和,B,n,個觀察,(a,1,b,1,),(a,n,b,n,).,屬性,A,和屬性,B,的均值,即期望值為:,和,則屬性,A,和,B,的,協(xié)方差,為:,如果利用公式,3.3,來計算,相關(guān)系數(shù),r,A,B,則:,其中分母是屬性,A,和,B,的標準差??梢钥吹剑?對于一起發(fā)生變化的屬性,A,和,B,,如果,A,大于,時,,B,也可能大
11、于,。因此,,A,和,B,之間的協(xié)方差為正,。如果一個屬性的值在均值以下時另一個傾向于在均值以上,則,協(xié)方差為負,。,如果,A,和,B,相互獨立(沒有關(guān)聯(lián)),則協(xié)方差為,0,.,但,反過來并不成立,。即一些隨機變量對的協(xié)方差值為,0,,但并不獨立。只有在一些額外的假設(shè)(如數(shù)據(jù)滿足多元正態(tài)分布)時協(xié)方差為,0,表明獨立性。,考慮下表,這是一個觀察到的,5,次,AllElectronics,和,Hightech,公式的股票價格。如果股票是被同一個公司的趨勢影響,那么它們的價格是否一起漲落呢?,計算均值:,則協(xié)方差為:,協(xié)方差值為正,因此,我們可以說兩個公司的股票是一起漲的,。,3.3.3,元祖重復
12、,3.3,數(shù)據(jù)集成,除了檢測屬性間的冗余,,元組級別的冗余,也需要被檢測。,不規(guī)范表的使用,(一般是為了避免連接提高性能)是另一種數(shù)據(jù)冗余的來源。在,不同的復制,之間常常產(chǎn)生不一致性。因為,不精確的數(shù)據(jù)輸入或者更新了一部分而非全部的數(shù)據(jù),。,例如,一個購買訂單數(shù)據(jù)庫包含購買者的姓名和地址屬性,而非這個信息的主鍵信息。不一致性就可能產(chǎn)生,比如在購買訂單數(shù)據(jù)庫中同樣的購買者姓名卻是不同的地址。,3.3.4,數(shù)據(jù)值沖突的檢測與處理,3.3,數(shù)據(jù)集成,數(shù)據(jù)集成,還包含,數(shù)據(jù)值沖突的檢測和解析,。例如,對于同一個真實世界實體,不同來源的屬性值可能不同??赡苁且驗楸磉_、刻度或者編碼的不同。,比如,體重屬性
13、在一個系統(tǒng)中可能以公制單位存放而在另一個中以,英制,單位存放。,學校之間交換信息的時候,每個學校有自己的課程設(shè)置和等級模式。一個大學可能采用一個季度系統(tǒng),一個數(shù)據(jù)庫系統(tǒng)中,3,門課程,等級從,A+,到,F,。另一個可能采用學期值,數(shù)據(jù)庫中提供,2,門課程,等級從,1,到,10.,很難制定兩所大學精確的課程,等級轉(zhuǎn)換規(guī)則,交換信息很困難。,3.4.1,數(shù)據(jù)規(guī)約策略的概述,3.4.2,小波變換,3.4.3,主成分分析,3.4.4,屬性子集選擇,3.4.5,回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)規(guī)約,3.4.6,直方圖,3.4.7,聚類,3.4.8,抽樣,3.4.9,數(shù)據(jù)立方體聚集,3.4,數(shù)據(jù)規(guī)約,3.4
14、.1,數(shù)據(jù)規(guī)約策略的概述,數(shù)據(jù)規(guī)約策略包括維歸約,數(shù)量規(guī)約,數(shù)據(jù)壓縮,1,)維歸約:減少所考慮的隨機變量或?qū)傩缘膫€數(shù)。方法有,小波變換和主成分分析,,它們把原數(shù)據(jù)變換或投影到較小的空間。屬性子集選擇是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測和刪除。,2,)數(shù)量歸約:用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)。,3,)數(shù)據(jù)壓縮:使用變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)能夠從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,該數(shù)據(jù)歸約為 無損的,近似重構(gòu)原數(shù)據(jù)稱為有損的。,3.4,數(shù)據(jù)規(guī)約,(,1,),離散小波變換(,DWT,):一種線性信號處理技術(shù),用于數(shù)據(jù)向量,X,時,將它變成不同的
15、數(shù)值小波系數(shù)向量,X,。,(,2,),主成分分析:(,PCA,)又稱,K-L,方法,搜索,k,個最能代表數(shù)據(jù)的,n,維正交向量,其中,k=n,。,(,3,),屬性子集選擇:通過刪除不相關(guān)或冗余的屬性(維)減少數(shù)據(jù)量。目標是找出最小屬性集,,,使得,數(shù)據(jù),類的概率分布盡可能地接近使用所有屬性得到的原分布。另外,在縮小后的屬性集上挖掘能夠減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性數(shù)目,使得模式更易于理解。,3.4,數(shù)據(jù)規(guī)約,(,4,)回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約,回歸和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。對數(shù)線性模型:近似離散的多維概率分布。給定,n,維元組的集合,我們把每個元組看做,n,維空間的點,對于離
16、散屬性集,,可使用,對數(shù)線性模型,基于維組合的一個較小子集,,估計多維,空間中每個點的概率。,(,5,)直方圖,直方圖使用分箱來近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。(,6,)聚類,聚類技術(shù)把數(shù)據(jù)元組看做對象,將對象劃分為群或簇,使得在一個簇中的對象相互,“相似”,,而與其他簇中的對象“相異”。通常,相似性基于距離函數(shù)。,(,7,),抽樣,抽樣可以作為一種數(shù)據(jù)歸約的技術(shù)使用,因為它允許用數(shù)據(jù)小得多的隨機樣本表示數(shù)據(jù)集。,例如,:,簇,抽樣,,分層抽樣,(,8,)數(shù)據(jù)立方體聚集,對數(shù)據(jù)倉庫的多維數(shù)據(jù)結(jié)構(gòu)建模,3.5.1,數(shù)據(jù),變換,策略概述:,1,)光滑:去掉數(shù)據(jù)中的噪聲。技術(shù)包括分箱、回歸、聚類。,2,)屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘。,3,)聚集:對,數(shù)據(jù)進行匯總,或聚集。,4,)規(guī)范化:把屬性數(shù)據(jù)按比例縮放,使之落入一個特定的區(qū)間。,5,)離散化:數(shù)值屬性(,eg,。年齡)的原始值用區(qū)間標簽(,eg.0-10,11-20,)或概念標簽(,youth,,,adult,,,senior,)替換。,6,)由標稱數(shù)據(jù)產(chǎn)生概念分層:將某個屬性