數(shù)據(jù)挖掘與數(shù)據(jù)倉庫知識點(diǎn)總結(jié).doc
《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫知識點(diǎn)總結(jié).doc》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫知識點(diǎn)總結(jié).doc(8頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、數(shù)據(jù)倉庫定義:數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù),允許將各種應(yīng)用系統(tǒng)一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺,對信息處理提供支持。數(shù)據(jù)倉庫是面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。設(shè)計(jì)和構(gòu)造步驟:1)選取待建模的商務(wù)處理;2)選取商務(wù)處理的粒變;3)選取用于每個事實(shí)表記錄的維;4)選取事實(shí)表中每條記錄的變量 系統(tǒng)結(jié)構(gòu):(1)底層是倉庫數(shù)據(jù)服務(wù)器,總是關(guān)系數(shù)據(jù)庫系統(tǒng)。(2)中間層是OLAP服務(wù)器,有ROLAP和MOLAP,它將對多維數(shù)據(jù)的操作映射為標(biāo)準(zhǔn)的關(guān)系操作(3)頂層是前端客戶端,它包括查詢和報(bào)表工具、分析工具和數(shù)據(jù)挖掘工具 2、數(shù)據(jù)倉庫的多維數(shù)據(jù)模型:(1)星形模式:在此模型下,數(shù)據(jù)倉庫包括一個大的包含大批數(shù)據(jù)并且不含冗余的中心表,一組小的附屬表,維表圍繞中心事實(shí)表顯示的射線上。特征:星型模型四周的實(shí)體是維度實(shí)體,其作用是限制和過濾用戶的查詢結(jié)果,縮小訪問范圍。每個維表都有自己的屬性,維表和事實(shí)表通過關(guān)鍵字相關(guān)聯(lián)?!纠樱簊ales數(shù)據(jù)倉庫的星形模式,此模式包含一個中心事實(shí)表sales,它包含四個維time, item, branch和location。 (2)雪花型模式:它是星形模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。特征:雪花模型通過最大限度地減少數(shù)據(jù)存儲量和聯(lián)合較小的維表來改善查詢性能,增加了用戶必須處理的表數(shù)量和某些查詢的復(fù)雜性,但同時(shí)提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求?!纠油希徊贿^把其中的某些維給擴(kuò)展了。 (3)事實(shí)星座形:復(fù)雜的應(yīng)用可能需要多個事實(shí)表共享維表,這種模式可看作星形模式的匯集。 特征:事實(shí)星座模型能對多個相關(guān)的主題建模。例子:有兩個事實(shí)表sales和shipping,它們可以共享維表time, item和location。 3、OLAP:即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。特點(diǎn):1.實(shí)時(shí)性要求不是很高。2.數(shù)據(jù)量大。3.因?yàn)橹攸c(diǎn)在于決策支持,所以查詢一般是動態(tài)的,也就是說允許用戶隨機(jī)提出查詢要求。 OLAP操作:上卷:通過沿一個維的概念分層向上攀登,或者通過維歸約,對數(shù)據(jù)立方體進(jìn)行類聚。下鉆:是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),下鉆可以通過沿維的概念分層向下或引入附加的維來實(shí)現(xiàn)。切片:對給定方體的一個維進(jìn)行進(jìn)行選擇,導(dǎo)致一個子立方體。切塊:通過對兩個或多個維執(zhí)行選擇,定義子立方體。轉(zhuǎn)軸:是一種可視化操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。 OLTP:即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理。OLTP的特點(diǎn)有:a.實(shí)時(shí)性要求高;b.數(shù)據(jù)量不是很大。C.交易一般是確定的,是對確定性數(shù)據(jù)進(jìn)行存取。d.并發(fā)性要求高且嚴(yán)格的要求事務(wù)的完整性,安全性。 OLTP和OLAP的區(qū)別:1)用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場;2)數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù);3)數(shù)據(jù)庫設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型;4)視圖:OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP 系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù);5)訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復(fù)雜的查詢。 7、PageRank算法 原理:1)在初始階段:構(gòu)建Web圖,每個頁面初始設(shè)置相同的PageRank值,通過迭代計(jì)算,會得到每個頁面所獲得的最終PageRank值。2)在一輪中更新頁面PageRank得分的計(jì)算方法:每個頁面將其當(dāng)前的PageRank值平均分配到本頁面包含的出鏈上。每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和,即可得到新的PageRank得分。 優(yōu)點(diǎn):是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。 缺點(diǎn):1)人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低。2)舊的頁面等級會比新頁面高。因?yàn)榧词故欠浅:玫男马撁嬉膊粫泻芏嗌嫌捂溄?,除非它是某個站點(diǎn)的子站點(diǎn)。 5、分類:指把數(shù)據(jù)樣本映射到一個事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量及其對應(yīng)的類。過程:①在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;②然后根據(jù)規(guī)則對新數(shù)據(jù)進(jìn)行分類。 分類的方法有哪些,給出你所了解的評估分類器的方法和特點(diǎn)? 分類方法:用基于歸納的學(xué)習(xí)算法,k-最近鄰分類,人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。用判定樹歸納分類;貝葉斯分類;后向傳播分類;基于規(guī)則的分類;關(guān)聯(lián)分類,SVM支持向量機(jī)等。 分類和預(yù)測的評估方法:預(yù)測的準(zhǔn)確率、速度、強(qiáng)壯性、可規(guī)模性、可解釋性。 評估方法:(1)保持方法,給定數(shù)據(jù)隨機(jī)地劃分成兩個獨(dú)立的集合:訓(xùn)練集和測試集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到測試集。使用訓(xùn)練集導(dǎo)出分類法,其準(zhǔn)確率用測試集評估。評估是保守的,因?yàn)橹挥幸徊糠殖跏紨?shù)據(jù)用于導(dǎo)出的分類法。 (2)交叉確認(rèn):在k-折交叉確認(rèn)中,初試數(shù)據(jù)被劃分成 k 個互不相交的子集或“折”S 1,S 2,...,S k,每個折的大小大致相等。訓(xùn)練和測試進(jìn)行 k次。在第 i次迭代,S i用作測試集,其余的子集都用于訓(xùn)練分類法。其它方法包括解靴帶(bootstrapping)和留一。前者使用一致的、帶放回的選樣,選取給定的訓(xùn)練實(shí)例;后者是 k-折交叉確認(rèn),這里 k 為初始樣本數(shù) s。一般地,建議使用調(diào)整的 10-折交叉確認(rèn),因?yàn)樗哂邢鄬Φ偷钠煤头讲睢? (3)袋裝:給定 s 個樣本的集合 S,對于迭代 t ( t = 1,2,...,T ),訓(xùn)練集 S t采用放回選樣,由原始樣本集 S 選取。由于使用放回選樣,S 的某些樣本可能不在 St中,而其它的可能出現(xiàn)多次。由每個訓(xùn)練集 S t學(xué)習(xí),得到一個分類法 C t。為對一個未知的樣本 X 分類,每個分類法 C t返回它的類預(yù)測,算作一票。裝袋的分類法 C*統(tǒng)計(jì)得票,并將得票最高的類賦予 X。通過取得票的平均值,而不是多數(shù),裝袋也可以用于連續(xù)值的預(yù)測。 (4)推進(jìn):每個訓(xùn)練樣本賦予一個權(quán)。學(xué)習(xí)得到一系列分類法。學(xué)習(xí)得到分類法 Ct后,更新權(quán),使得隨后的分類法 C t+1 “更關(guān)注” C t的分類錯誤。最終的推進(jìn)分類法 C*組合每個分類法的表決,這里每個分類法的表決是其準(zhǔn)確率的函數(shù)。推進(jìn)算法也可以擴(kuò)充到連續(xù)值預(yù)測。 應(yīng)用領(lǐng)域:是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計(jì)分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件和垃圾郵件進(jìn)行分類,從而制定有效的垃圾郵件過濾機(jī)制,防止垃圾郵件干擾人們的正常生活。 8、決策樹歸納算法及其優(yōu)缺點(diǎn) 決策樹定義:是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。 歸納算法過程:①創(chuàng)建節(jié)點(diǎn)N,若劃分D中所有元組屬于同一個類C,返回N,并用C標(biāo)記②若屬性表為空,返回N并以D中多數(shù)類標(biāo)記 ③從屬性表中找到最優(yōu)屬性a,標(biāo)記節(jié)點(diǎn)N ④如果a是離散的且允許多路劃分,則從屬性表中刪除a ⑤對屬性a在D上的每個劃分Dj,若Dj為空,則加一個樹葉到N并標(biāo)記D中的多數(shù)類,否則遞歸調(diào)用本算法處理Dj,返回的節(jié)點(diǎn)加到N ⑥返回N 優(yōu)點(diǎn):①更高的準(zhǔn)確性②可以生成可理解的規(guī)則③計(jì)算量不是很大④可以處理連續(xù)和種類字段⑤可以清晰顯示哪些字段比較重要⑥容易轉(zhuǎn)化成分類規(guī)則:只要沿著樹根向下一直走到葉子,沿途的分裂條件就能夠唯一的決定一條分類的謂詞 缺點(diǎn):①缺乏伸縮性,由于進(jìn)行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓(xùn)練集②為了處理大數(shù)據(jù)集的種種算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準(zhǔn)確性。 6.聚類分析的功能,主要的聚類方法及其特點(diǎn)。 聚類:【不知道數(shù)據(jù)的分類,甚至連分成幾類也不知道】將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。是無指導(dǎo)的學(xué)習(xí)。 聚類與分類的主要區(qū)別:和分類學(xué)習(xí)相比,聚類的樣本沒有標(biāo)記,需要由聚類學(xué)習(xí)算法來自動確定。聚類分析是研究如何在沒有訓(xùn)練集的條件下把樣本劃分為若干類。在分類中,對于目標(biāo)數(shù)據(jù)庫中存在哪些類是知道的,要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來。 主要的聚類方法:1)劃分方法:給定n個對象或數(shù)據(jù)元組的數(shù)據(jù)庫,劃分方法構(gòu)建數(shù)據(jù)的K個劃分,每個劃分表示一個簇,k<=n. 構(gòu)建不同劃分。如K均值、K中心點(diǎn)算法等。缺點(diǎn)是需要窮舉所有可能劃分,適用于中小規(guī)模數(shù)據(jù)庫 2) 層次方法:對給定數(shù)據(jù)庫對象進(jìn)行層次分解,如Diana,Agnes、BIRCH、ROCK、CAMELEON等,缺點(diǎn)在于一旦一個步驟(合并或分裂)完成,就不能撤銷 3) 基于密度的方法?;谶B接和密度函數(shù),如DBSCAN和OPTICS 4) 基于網(wǎng)格的方法,基于多層粒度函數(shù),如STING、WaveCluster、CLIQUE等,把對象空間量化為有限個單元,形成網(wǎng)格結(jié)構(gòu),聚類都在網(wǎng)格上進(jìn)行。處理速度快,處理時(shí)間依賴于量化空間每一維的單元數(shù)目 5) 基于模型的方法,為每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合,如EM、SOM、COBWEB算法等 6) 基于頻繁模式的聚類:從頻繁出現(xiàn)的維數(shù)自己中提取不同的頻繁模式。 7) 基于約束的聚類:結(jié)合用戶指定或面向應(yīng)用的約束進(jìn)行聚類。 應(yīng)用領(lǐng)域:是數(shù)據(jù)挖掘應(yīng)用的主要技術(shù)之一,它可以作為一個獨(dú)立的工具來使用,將未知類標(biāo)號的數(shù)據(jù)集劃分為多個類別之后,觀察每個類別中數(shù)據(jù)樣本的特點(diǎn),并且對某些特定的類別作進(jìn)一步的分析。此外,聚類分析還可以作為其他數(shù)據(jù)挖掘技術(shù)(例如分類學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等)的預(yù)處理工作。 4、人工神經(jīng)網(wǎng)絡(luò):是一個函數(shù),主要在于這個函數(shù)的自學(xué)習(xí)過程,在學(xué)習(xí)過程中,它根據(jù)正確結(jié)果不停的校正自己的網(wǎng)絡(luò)結(jié)構(gòu)。 分類方法:1.依學(xué)習(xí)策略分類主要有:監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)為主、無監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)、混合式學(xué)習(xí)網(wǎng)絡(luò)、聯(lián)想式學(xué)習(xí)網(wǎng)絡(luò)、最適化學(xué)習(xí)網(wǎng)絡(luò)2.依網(wǎng)絡(luò)架構(gòu)分類主要有:前向式架構(gòu)、回饋式架構(gòu)、強(qiáng)化式架構(gòu) 優(yōu)點(diǎn):預(yù)測準(zhǔn)確性高、對噪聲數(shù)據(jù)的高承受力(訓(xùn)練樣本差錯時(shí)仍可工作)、輸出離散值、快速評估目標(biāo) 缺點(diǎn):1、需要很長的訓(xùn)練時(shí)間 2、難以與域知識合作3、可解釋性差 BP網(wǎng)絡(luò):是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。BP算法由數(shù)據(jù)流的前向計(jì)算(正向傳播)和誤差信號的反向傳播兩個過程構(gòu)成。 BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程:神經(jīng)網(wǎng)絡(luò)在外界輸入樣本的刺激下不斷改變網(wǎng)絡(luò)連接的權(quán)值,閾值。以使網(wǎng)絡(luò)的輸出不斷地接近期望的輸出。學(xué)習(xí)的本質(zhì):對各連接權(quán)值、閾值的動態(tài)調(diào)整。學(xué)習(xí)規(guī)則:權(quán)值、閾值調(diào)整規(guī)則,即在學(xué)習(xí)過程中網(wǎng)絡(luò)中各神經(jīng)元的連接權(quán)變化所依據(jù)的一定的調(diào)整規(guī)則 BP學(xué)習(xí)算法的步驟: 選定學(xué)習(xí)的數(shù)據(jù),p=1,…,P, 隨機(jī)確定初始權(quán)矩陣W(0); 用學(xué)習(xí)數(shù)據(jù)計(jì)算網(wǎng)絡(luò)輸出;反向修正,直到用完所有學(xué)習(xí)數(shù)據(jù)。 BP神經(jīng)網(wǎng)絡(luò)算法步驟:1初始化,依據(jù)實(shí)際問題給出網(wǎng)絡(luò)連接結(jié)構(gòu),隨機(jī)設(shè)置所有連接權(quán)值。2提供訓(xùn)練樣本,如果輸入變量為n個,輸出變量為m個,則每個訓(xùn)練樣本形式為(x1,x2,…,xn;t1,t2,…,tm)。這里t1,t2,…,tm是輸入為x1,x2,…,xn的期望輸出。3計(jì)算實(shí)際輸出,利用非純屬函數(shù)逐級計(jì)算各層節(jié)點(diǎn)的輸入值。4權(quán)值調(diào)整,用遞歸方法從輸出節(jié)點(diǎn)開始返回到隱層節(jié)點(diǎn)。5返回第二步,重復(fù)執(zhí)行,直到達(dá)到滿意誤差。 BP網(wǎng)絡(luò)的缺點(diǎn):易陷入局部最小點(diǎn);收斂速度慢;學(xué)習(xí)過程容易出現(xiàn)震蕩; 9、提升Adaboost:在提升方法中,權(quán)重賦予每個訓(xùn)練元組。迭代地學(xué)習(xí)k個分類器序列。學(xué)習(xí)得到分類器Mi之后,更新權(quán)重,使得其后的分類器Mi+1“更關(guān)注”Mi誤分類的訓(xùn)練元組。最終提升的分類器M*組合每個個體分類器,其中每個分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。 過程:給定數(shù)據(jù)集D,包含d個類標(biāo)記的元組(X1,y1),(X2,y2),……,(Xd,yd),其中,yi是元組Xi的類標(biāo)號。Adaboost對每個訓(xùn)練元組賦予相等的權(quán)重1/d。在第i輪中:從D中元組抽樣,形成大小為d的訓(xùn)練集Di。每個元組被選中的機(jī)會由它的權(quán)重決定。從訓(xùn)練元組Di導(dǎo)出分類模型Mi。使用Di作為檢驗(yàn)集計(jì)算Mi的誤差。調(diào)整訓(xùn)練元組D的權(quán)重:如果元組不正確地分類,則它的權(quán)重增加。如果元組正確分類,則它的權(quán)重減少。元組的權(quán)重反應(yīng)對它們分類的困難程度——權(quán)重越高,越可能錯誤地分類。分類器使用這些權(quán)重產(chǎn)生下一輪的訓(xùn)練樣本。如果分類器Mi的性能太差,誤差率超過0.5,則丟棄它。 AdaBoost算法的優(yōu)點(diǎn):一是訓(xùn)練的錯誤率上界,隨著迭代次數(shù)的增加,會逐漸下降;二是adaboost算法即使訓(xùn)練次數(shù)很多,也不會出現(xiàn)過擬合的問題。 10、DBSCAN算法的特點(diǎn)和算法描述 DBSCAN 原理:(具有噪聲的基于密度的聚類應(yīng)用),這類方法將簇卸任是數(shù)據(jù)空間中被低密度區(qū)域分割開的稠密數(shù)據(jù)對象區(qū)域。它將簇定義為密度相連的點(diǎn)的最大集合??稍诰哂性肼暤目臻g數(shù)據(jù)庫中發(fā)現(xiàn)任意開關(guān)的聚類。基于密度的簇是基于密度可達(dá)性的密度相連的點(diǎn)的最大集合。 算法描述:(1)任選一未處理過的點(diǎn)p為種子點(diǎn);(2)如果p為核心對象,則查找點(diǎn)p直接密度可達(dá)的點(diǎn),將其中未標(biāo)記的點(diǎn)標(biāo)記簇標(biāo)號,并且將未處理的其它核心點(diǎn)加入種子列表;否則,轉(zhuǎn)到(1);(3) 將種子列表的點(diǎn)依次執(zhí)行操作(2)直到列表為空,一個簇形成;(4) 重復(fù)(1)-(3),直到?jīng)]有點(diǎn)可以加到任何一個簇中,聚類完成,剩余的點(diǎn)為噪聲點(diǎn)。 優(yōu)點(diǎn):1如果用戶定義的參數(shù)設(shè)置的恰當(dāng),該算法可以有效地找出任意形狀的簇。同時(shí),DBSCAN能夠識別出噪聲點(diǎn)。2DBSCAN對于數(shù)據(jù)庫中的樣本的順序不敏感。但是,對于處于簇類之間邊界樣本,可能會根據(jù)哪個簇類優(yōu)先被探測到而其歸屬有所擺動。 缺點(diǎn):1聚類質(zhì)量對參數(shù)非常敏感;2需要較大的內(nèi)存和輸入輸出支持。3使用全局密度參數(shù),不能處理多密度數(shù)據(jù)集。 4、支持向量機(jī)(SVM)思想:使用一種非線性映射,將原訓(xùn)練集映射到較高的維,在新的維上,它搜索最佳分離超平面,使用一個適合的對足夠高維的非線性映射,兩類數(shù)據(jù)總可以被超平面分開。優(yōu)點(diǎn):(1)對復(fù)雜的非線性決策邊界的建模能力是高度準(zhǔn)確的(2)不太容易過分?jǐn)M合(3)提供了學(xué)習(xí)模型的緊湊表示。(4)可以用來預(yù)測和分類。缺點(diǎn):訓(xùn)練時(shí)間長。特點(diǎn) :SVM是一種有堅(jiān)實(shí)理論基礎(chǔ)的小樣本學(xué)習(xí)方法 ; SVM最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算復(fù)雜度和支持向量的數(shù)目有關(guān)。算法具有較好的“魯棒”性。SVM可以有效處理非線性分類和回歸問題; SVM可以確定所建模型的推廣能力的上界 ;核函數(shù)的選取和參數(shù)優(yōu)化仍需要解決 5、EM:(定義)EM(期望最大化)算法是一種流行的迭代求精算法,可以用來求得參數(shù)的估計(jì)值,它可看作是k均值算法的一種擴(kuò)展,基于簇的均值把對象指派到最相似的簇中。EM不是把每個對象指派到特定的簇,而是根據(jù)一個代表隸屬概率的權(quán)重將每個對象指派到簇。(步驟)(1)期望步:對每簇計(jì)算對象x的簇隸屬概率(2)最大化步:利用前面得到的概率估計(jì)重新估計(jì)模型參數(shù)(優(yōu)點(diǎn))簡單和穩(wěn)定,收斂快(缺點(diǎn))達(dá)不到局部最優(yōu) 4、關(guān)聯(lián)規(guī)則:定義:最初由R.Agrawal 等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來,稱為關(guān)聯(lián)規(guī)則。應(yīng)用:關(guān)聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域。關(guān)聯(lián)規(guī)則的應(yīng)用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等。分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。 挖掘步驟:1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項(xiàng)集;(2)利用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)。 3、樸素貝葉斯分類:定義:貝葉斯分類法是統(tǒng)計(jì)學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性。樸素貝葉斯分類法假定一個屬性值對給定類的影響?yīng)毩⒂谄渌麑傩灾?。它表示屬性子集間的依賴 主要思想:設(shè)為一個類別未知的數(shù)據(jù)樣本,H為某個假設(shè),若數(shù)據(jù)樣本X屬于一個特定的類別C,分類問題就是決定P(H|X),即在獲得數(shù)據(jù)樣本X時(shí)假設(shè)成立的概率。 優(yōu)點(diǎn):(1)理論上,貝葉斯分類具有最小的錯誤率(2)可以用來為不直接使用貝葉斯定理的其他分類法提供理論判定(3)有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率(4)模型所需估計(jì)的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單(5)網(wǎng)格結(jié)構(gòu)一旦確定下來后,添加新變量容易(5)適合處理不完整的數(shù)據(jù)(6)對過分?jǐn)M合問題魯棒。 缺點(diǎn):(1)實(shí)際上,由于對其使用的假定的不正確性,以及缺乏可用的概率,此分類法并不具有最小的錯誤率(2)有可能遇到零概率值,需要修正(3)構(gòu)造網(wǎng)格費(fèi)時(shí)、費(fèi)力 為什么樸素:樸素貝葉斯分類假定一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹怠T摷俣ǚQ作類條件獨(dú)立。做此假定是為了簡化所需計(jì)算,并在此意義下稱為“樸素的” 2、簡述數(shù)值數(shù)據(jù)根據(jù)直觀劃分離散化的3-4-5規(guī)則 (1)如果一個區(qū)間在最高有效位包括3, 6,7或 9 個不同的值,則將該區(qū)間劃分為3個區(qū)間(對于3,6和9 ,劃分為3個等寬的區(qū)間;對于7,按2-3-2劃分為3個區(qū)間)。 (2)如果最高位包含2,4,8個不同值,則將區(qū)間劃分為4個等寬區(qū)間。 (3)如果最高位包含1 ,5或10個不同的值,則將區(qū)間劃分為5個等寬的區(qū)間。 最高分層一般在第5個百分位到第95個百分位上進(jìn)行。 2、急切學(xué)習(xí)法是在接收待分類的新元組(如檢驗(yàn)元組)之前,利用訓(xùn)練集,構(gòu)造泛化模型,即分類器。學(xué)習(xí)后的模型已經(jīng)就緒,并急于對先前未見過的元組進(jìn)行分類。常見的急切學(xué)習(xí)法主要有支持向量機(jī),決策樹歸納,貝葉斯分類,基于規(guī)則的分類等。 3、惰性學(xué)習(xí)法是當(dāng)給定一組訓(xùn)練元組時(shí),簡單地存儲它,僅當(dāng)給出檢驗(yàn)元組時(shí),才利用存儲的訓(xùn)練元組的相似性對該元組進(jìn)行分類,不像急切學(xué)習(xí)法,惰性學(xué)習(xí)法在提供訓(xùn)練元組時(shí)只做少量工作,而在進(jìn)行分類或預(yù)測時(shí)才做更多的工作。常見的惰性學(xué)習(xí)法有K最近鄰和基于案例的推理分類法。 急切學(xué)習(xí)法和惰性學(xué)習(xí)法的優(yōu)缺點(diǎn):急切學(xué)習(xí)法訓(xùn)練分類器時(shí)需耗費(fèi)大量時(shí)間,但對檢驗(yàn)元組進(jìn)行分類或預(yù)測時(shí)速度較快,且占用空間少; 惰性學(xué)習(xí)法不需要建立模型,但是在對檢驗(yàn)元組進(jìn)行分類或預(yù)測時(shí),需要將所有訓(xùn)練元組與檢驗(yàn)元組進(jìn)行運(yùn)算,計(jì)算開銷可能相當(dāng)大,耗費(fèi)大量時(shí)間。 1、后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個連接都與一個權(quán)相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確標(biāo)號來學(xué)習(xí)。優(yōu)點(diǎn):預(yù)測精度總的來說較高、健壯性好,訓(xùn)練樣本中包含錯誤時(shí)也可正常工作、輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值、對目標(biāo)進(jìn)行分類較快 缺點(diǎn):訓(xùn)練(學(xué)習(xí))時(shí)間長、蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號含義很難理解、很難根專業(yè)領(lǐng)域知識相整合 34、KNN定義:即K最近鄰分類法,它是基于類比學(xué)習(xí),即通過給定的檢驗(yàn)元組與和他相似的訓(xùn)練元組進(jìn)行比較來學(xué)習(xí)。 優(yōu)點(diǎn)1)算法簡單直觀,易于實(shí)現(xiàn);(2)不需要產(chǎn)生額外的數(shù)據(jù)來描述規(guī)則,并且可以存在噪音;(3)可以較好地避免樣本數(shù)量的不平衡問題;(4)減少了類別特征選擇不當(dāng)對分類結(jié)果造成的不利影響,可以最大程度地減少分類過程中的誤差項(xiàng)(5)適合增量學(xué)習(xí) 缺點(diǎn):1)分類速度慢(2)樣本庫容量依賴性較強(qiáng)(3)必須指定K值,K值選擇不當(dāng)則分類精度不能保證。k值的設(shè)定,k太小,分類結(jié)果易受噪聲點(diǎn)影響,k值太大,近鄰中又可能包含太多的其它類別的點(diǎn)(4)計(jì)算開銷大(5)需要有效的存儲技術(shù)和并行硬件的支撐。 1、數(shù)據(jù)預(yù)處理過程:數(shù)據(jù)清理:旨在消除或減少數(shù)據(jù)噪音和處理遺漏值的數(shù)據(jù)預(yù)處理。相關(guān)性分析:數(shù)據(jù)中許多屬性可能與分類和預(yù)測任務(wù)不相關(guān)。數(shù)據(jù)變換:數(shù)據(jù)可以泛化到較高層概念。 3.數(shù)據(jù)倉庫的特點(diǎn)和操作數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別: 數(shù)據(jù)倉庫的特點(diǎn):(1)面向主題的:數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造組織機(jī)構(gòu)的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。(2)集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量的一致性。 (3)時(shí)變的:數(shù)據(jù)存儲從歷史的角度(例如,過去 5-10 年)提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素。 (4)非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并行控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。 操作數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別: ? (1)用戶和系統(tǒng)的面向性:OLTP 是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。OLAP 是面向市場的,用于知識工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析。(2)數(shù)據(jù)內(nèi)容:OLTP 系統(tǒng)管理當(dāng)前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策。OLAP 系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級別上存儲和管理信息。這些特點(diǎn)使得數(shù)據(jù)容易用于見多識廣的決策。(3)數(shù)據(jù)庫設(shè)計(jì):通常,OLTP 系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)。而 OLAP 系統(tǒng)通常采用星形或雪花模型(2.2.2小節(jié)討論)和面向主題的數(shù)據(jù)庫設(shè)計(jì)。(4)視圖:OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。相比之下,由于組織的變化,OLAP 系統(tǒng)常??缭綌?shù)據(jù)庫模式的多個版本。OLAP 系統(tǒng)也處理來自不同組織的信息,由多個數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP 數(shù)據(jù)也存放在多個存儲介質(zhì)上。(5)訪問模式:OLTP 系統(tǒng)的訪問主要由短的、原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制。然而,對 OLAP 系統(tǒng)的訪問大部分是只讀操作(由于大部分?jǐn)?shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。 1、 概念分層及作用,舉例說明。 一個概念分層定義一個映射序列,將低層概念到更一般的高層概念。概念分層也可以通過將給定維或?qū)傩缘闹惦x散化或分組來定義,產(chǎn)生集合分組分層??梢栽谥到M間定義全序或偏序。例子如圖關(guān)于維 price 的集合分組概念分層。其中,區(qū)間($X...$Y ]表示由$X(不包括)到$Y(包括)。概念分層可以由系統(tǒng)用戶、領(lǐng)域?qū)<摇⒅R工程師人工地提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計(jì)分析自動地產(chǎn)生。對于一個給定的屬性或維,根據(jù)不同的用戶視圖,可能有多個概念分層。例如,用戶可能愿意用 inepensive, moderately_priced和 expensive 來組織price。 6.ID3算法基本思想和算法描述,C4.5算法增加了那些功能? 基本思想:首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。 算法描述:①從訓(xùn)練集中隨機(jī)選擇一個既含正例又含反例的子集(稱為窗口);②用“建樹算法”對當(dāng)前窗口形成一棵決策樹;③對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別判定,找出錯判的例子;④若存在錯判的例子,把它們插入窗口,重復(fù)步驟②,否則結(jié)束。 優(yōu)點(diǎn):1、理論清晰,算法簡單,很有實(shí)用價(jià)值的示例學(xué)習(xí)算法。2、計(jì)算時(shí)間是例子個數(shù)、特征屬性個數(shù)、節(jié)點(diǎn)個數(shù)之積的線性函數(shù),總預(yù)測準(zhǔn)確率較令人滿意 缺點(diǎn):(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評價(jià)標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價(jià)值的信息(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹 C4.5是機(jī)器學(xué)習(xí)算法中的另一個分類決策樹算法,基于ID3算法進(jìn)行改進(jìn)后的一種重要算法,相比于ID3算法,改進(jìn)有如下幾個要點(diǎn): (1)用信息增益率來選擇屬性。ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來定義信息,ID3使用的是熵(entropy, 熵是一種不純度度量準(zhǔn)則),也就是熵的變化值,而C4.5用的是信息增益率。 (2)在決策樹構(gòu)造過程中進(jìn)行剪枝,因?yàn)槟承┚哂泻苌僭氐慕Y(jié)點(diǎn)可能會使構(gòu)造的決策樹過適應(yīng)(Overfitting),如果不考慮這些結(jié)點(diǎn)可能會更好。 (3)對非離散數(shù)據(jù)也能處理。 (4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。 8、劃分算法的描述 1、K均值:輸入:簇的數(shù)目 k 和包含 n 個對象的數(shù)據(jù)庫。輸出:k 個簇,使平方誤差最小方法:(1),隨機(jī)地選擇k個對象作為初始簇中心(2)根據(jù)簇中對象的均值,將每個對象再只拍到最相似的簇(3)更新簇均值,即計(jì)算每個簇中對象的均值;(4)重復(fù)(2)(3)步,直到簇中心點(diǎn)不再發(fā)生變化。 優(yōu)點(diǎn):(1)思想簡單易行;相對有效:O(tkn),n是多有對象的數(shù)目,K是簇的數(shù)目,t是迭代的次數(shù),通常k,t<- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù) 挖掘 數(shù)據(jù)倉庫 知識點(diǎn) 總結(jié)
鏈接地址:http://www.hcyjhs8.com/p-6488336.html