數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息管理ppt課件
《數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息管理ppt課件》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息管理ppt課件(37頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)挖掘技術(shù),1,前言,學(xué)習(xí)目的和方向 數(shù)據(jù)倉庫-新型的信息管理手段 數(shù)據(jù)挖掘-新型的信息分析技術(shù) 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘更加有效,2,教材 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘 蘇新寧、楊建林等編著,清華大學(xué)出版社,2006 參考書 數(shù)據(jù)挖掘:概念與技術(shù),[加]韓家煒 坎伯(Kamber,M.)著 范明等譯 微軟公司核心技術(shù)書庫 SQL Server 2000數(shù)據(jù)挖掘技術(shù)指南,[美]希德曼(Seidman,C.)著 劉藝 等譯 數(shù)據(jù)挖掘原理, [英]漢德(Hand,D.)著 張銀奎等譯,前言,3,參考書 數(shù)據(jù)倉庫原理與實踐,林宇等編著 數(shù)據(jù)倉庫中的決策支持,瑞 Gray 沃森 Watson Oracle9i數(shù)據(jù)倉庫分析、構(gòu)建實用指南,飛思科技產(chǎn)品研發(fā)中心編著 數(shù)據(jù)挖掘討論組,前言,4,主要內(nèi)容,第1章 數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與信息管理 第2章 數(shù)據(jù)挖掘的功能、過程與方法 第3章 數(shù)據(jù)庫挖掘 第4章 文本挖掘 第5章 Web挖掘 第6章 數(shù)據(jù)挖掘應(yīng)用 第7章 數(shù)據(jù)挖掘軟件發(fā)展分析,5,第1章 數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與信息管理,,6,數(shù)據(jù)倉庫的起源,數(shù)據(jù)庫與數(shù)據(jù)倉庫是信息資源管理的兩種手段 企業(yè)用戶信息的需求有了新的變化,傳統(tǒng)的數(shù)據(jù)庫很難勝任這方面的要求 數(shù)據(jù)倉庫可以很好地滿足這方面的要求,7,1.1 企業(yè)信息用戶關(guān)心的新問題,一般來說,用戶關(guān)心下列問題: 可訪問性 即用戶能否得到他所需要的信息(例,教室占用率); 及時性 即用戶得到信息需要等多長時間(例,地質(zhì)模擬,算最佳注水溫度、礦物濃度); 格式 即用戶能否用電子表格、圖形、地圖或其他分析工具來操縱他所得到數(shù)據(jù)、能否得到報表形式的數(shù)據(jù); 完整性 即用戶得到的數(shù)據(jù)是否可信(從不完整的數(shù)據(jù)中得出的結(jié)論可能不準(zhǔn)確)。,8,1.1 企業(yè)信息用戶關(guān)心的新問題,傳統(tǒng)數(shù)據(jù)庫技術(shù)的局限性 傳統(tǒng)的數(shù)據(jù)庫技術(shù)以數(shù)據(jù)庫為中心進行從事務(wù)處理到?jīng)Q策分析等各種類型的數(shù)據(jù)處理工作,不適宜決策支持應(yīng)用,9,1.1 企業(yè)信息用戶關(guān)心的新問題,事務(wù)處理環(huán)境不適宜決策支持應(yīng)用的主要原因 事務(wù)處理和分析處理的性能特性不同 數(shù)據(jù)集成問題 歷史數(shù)據(jù)問題 數(shù)據(jù)綜合問題,10,1.2 解決問題的關(guān)鍵技術(shù)-數(shù)據(jù)倉庫,構(gòu)建數(shù)據(jù)倉庫,把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照決策支持處理的需要進行重新組織,建立單獨的分析處理環(huán)境,11,1.2 解決問題的關(guān)鍵技術(shù)-數(shù)據(jù)倉庫,數(shù)據(jù)倉庫 Inmon把數(shù)據(jù)倉庫描述為一個“面向主題的、完整的、非易失的、不同時間的、用于支持決策管理的數(shù)據(jù)集合” 通常有兩種數(shù)據(jù)源的數(shù)據(jù)聚居在數(shù)據(jù)倉庫中 在大多數(shù)情況下,來自于事務(wù)處理系統(tǒng)周期性遷移的數(shù)據(jù)被移入數(shù)據(jù)倉庫 另一種數(shù)據(jù)源常常是購買過來的可以與內(nèi)部數(shù)據(jù)相連通的外部數(shù)據(jù)庫,如收入清單、人口統(tǒng)計信息等,12,1.3數(shù)據(jù)倉庫的商業(yè)應(yīng)用,典型應(yīng)用:客戶關(guān)系管理 有了數(shù)據(jù)倉庫,就可以了解客戶是誰,他要什么,怎樣提供更好的服務(wù)給他,并以此創(chuàng)造更多利潤 零售業(yè) 電信行業(yè) 證券行業(yè),13,1.4 數(shù)據(jù)倉庫與信息管理,數(shù)據(jù)倉庫在信息管理方面的作用 信息資源管理 信息分析 信息服務(wù) 基于數(shù)據(jù)倉庫為用戶提供信息服務(wù),可以使用戶能夠從多種視角觀察數(shù)據(jù),從而能夠更深入地理解數(shù)據(jù),從中獲得決策支持信息 數(shù)據(jù)倉庫提供給用戶的信息或知識可以是利用從數(shù)據(jù)倉庫抽取出的數(shù)據(jù)組織成的報表或繪制成的直觀圖形,14,1.5 信息管理新問題催生數(shù)據(jù)挖掘,人們被“淹沒”在數(shù)據(jù)“海洋”之中 如何不被堆積如山的信息所淹沒? 如何能夠迅速地從海量信息中獲取有用信息? 在這種背景下,數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運而生,15,1.5 信息管理新問題催生數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是指從大型數(shù)據(jù)集中提取人們感興趣的知識,這些知識是隱含的、具有一定可信度的、對用戶而言是新穎的且有潛在價值的知識,提取的知識表示為概念、規(guī)則、模式等多種形式,16,1.5 信息管理新問題催生數(shù)據(jù)挖掘,下面將通過一個案例研究來介紹各個數(shù)據(jù)分析階段中所涉及的概念 三個階段: 報表查詢 聯(lián)機分析 數(shù)據(jù)挖掘,17,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之報表查詢,18,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之報表查詢,19,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之聯(lián)機分析 1. 1月份,頭盔在什么地區(qū)銷售最好? 2. 1月份,哪個國家的頭盔銷售在該暢銷地區(qū)處于領(lǐng)先地位? 3. 在領(lǐng)先的國家中,哪個城市的頭盔收入最高?,20,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之?dāng)?shù)據(jù)挖掘 問題; 對購買山地車的客戶來說,什么是最可能會同時購買的商品? Intelligent Miner for data該問題做出如下答案:頭盔,可能性為92%:手套,可能性為62%:新款鈴鐺,可能性為23%;速度計,可能性為13%。 關(guān)聯(lián)算法發(fā)現(xiàn)了產(chǎn)品之間的聯(lián)系。根據(jù)上面的答案,它會給銷售人員一個目錄,列出在銷售某一具體產(chǎn)品時所建議的前3名關(guān)聯(lián)產(chǎn)品。例如,如果銷售山地車,銷售人員可建議購買頭盔、手套和新款鈴鐺。,21,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之?dāng)?shù)據(jù)挖掘 3個月后,公司有了如下結(jié)果: 季度的營業(yè)額上升34%,收入上漲32%; 每輛山地車交易的平均銷售收入增加了29%; 山地車與頭盔一塊購買成了時尚(每個銷售地點的頭盔成交量都上升了); 手套的銷售上升15%; 山地車附件上升51%;,22,1.6 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系,構(gòu)建在數(shù)據(jù)倉庫平臺上的數(shù)據(jù)挖掘效率會更高 一般來說,數(shù)據(jù)挖掘的對象可以是普通的數(shù)據(jù)庫、文件系統(tǒng),也可以是數(shù)據(jù)倉庫,但,數(shù)據(jù)倉庫完成了知識發(fā)現(xiàn)過程中大部分的數(shù)據(jù)預(yù)處理工作 數(shù)據(jù)挖掘庫中的內(nèi)容可以是數(shù)據(jù)倉庫數(shù)據(jù)的一個邏輯上的子集 數(shù)據(jù)挖掘是一個相對獨立的系統(tǒng),它可以獨立于數(shù)據(jù)倉庫系統(tǒng)而存在,23,1.7數(shù)據(jù)倉庫與數(shù)據(jù)庫長期共存,首先,企業(yè)在建立用于決策的數(shù)據(jù)倉庫系統(tǒng)時,不能一味否定傳統(tǒng)的數(shù)據(jù)庫系統(tǒng),還應(yīng)該在企業(yè)內(nèi)部保留數(shù)據(jù)庫系統(tǒng),用于日常的事務(wù)處理 其次,數(shù)據(jù)庫是數(shù)據(jù)倉庫的基礎(chǔ) 第三,在技術(shù)實現(xiàn)方面,數(shù)據(jù)庫與數(shù)據(jù)倉庫差別不大,數(shù)據(jù)倉庫并不是純粹的技術(shù)科學(xué),它強調(diào)的是數(shù)據(jù)組織的一種理念 第四,不要脫離企業(yè)的實際,盲目地、片面地、甚至是趕時髦地去引進與實施數(shù)據(jù)倉庫技術(shù),24,在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘,關(guān)系數(shù)據(jù)庫 數(shù)據(jù)倉庫 事務(wù)數(shù)據(jù)庫 高級數(shù)據(jù)庫系統(tǒng)和信息庫 空間數(shù)據(jù)庫 時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫 流數(shù)據(jù) 多媒體數(shù)據(jù)庫 面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫 異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫 文本數(shù)據(jù)庫和萬維網(wǎng)(WWW) 知識庫,25,空間數(shù)據(jù)庫,空間數(shù)據(jù)庫是指在關(guān)系型數(shù)據(jù)庫(DBMS)內(nèi)部對地理信息進行物理存儲。空間數(shù)據(jù)庫中存儲的海量數(shù)據(jù)包括對象的空間拓?fù)涮卣?、非空間屬性特征以及對象在時間上的狀態(tài)變化。 常見的空間數(shù)據(jù)庫數(shù)據(jù)類型 地理信息系統(tǒng)(GIS) 遙感圖像數(shù)據(jù) 醫(yī)學(xué)圖像數(shù)據(jù),26,時間數(shù)據(jù)庫和時序數(shù)據(jù)庫,時間數(shù)據(jù)庫和時序數(shù)據(jù)庫都存放與時間有關(guān)的數(shù)據(jù)。 時間數(shù)據(jù)庫通常存放包含時間相關(guān)屬性的數(shù)據(jù)。 時序數(shù)據(jù)庫存放隨時間變化的值序列。 對時間數(shù)據(jù)庫和時序數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或?qū)ο笞兓厔荨?27,流數(shù)據(jù),與傳統(tǒng)的數(shù)據(jù)庫技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。 主要應(yīng)用場合 網(wǎng)絡(luò)監(jiān)控 網(wǎng)頁點擊流 股票市場 流媒體…等等 與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比,流數(shù)據(jù)在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別。,28,多媒體數(shù)據(jù)庫,多媒體數(shù)據(jù)庫實現(xiàn)用計算機管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術(shù)一般將這些多媒體數(shù)據(jù)以二進制大對象的形式進行存儲。 對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的多特征提取和基于相似性的模式匹配。,29,面向?qū)ο髷?shù)據(jù)庫是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對數(shù)據(jù)以對象的形式進行存儲,并在這個基礎(chǔ)上實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫的功能。 對象-關(guān)系數(shù)據(jù)庫基于對象-關(guān)系模型構(gòu)造,該模型通過處理復(fù)雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴充關(guān)系模型。 面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)挖掘會涉及一些新的技術(shù),比如處理復(fù)雜對象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。,面向?qū)ο髷?shù)據(jù)庫/對象-關(guān)系數(shù)據(jù)庫,30,異構(gòu)數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫,歷史數(shù)據(jù)庫是一系列的異構(gòu)數(shù)據(jù)庫系統(tǒng)的集合,包括不同種類的數(shù)據(jù)庫系統(tǒng),像關(guān)系數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫、文件系統(tǒng)等等。 有效利用歷史數(shù)據(jù)庫的關(guān)鍵在于實現(xiàn)不同數(shù)據(jù)庫之間的數(shù)據(jù)信息資源、硬件設(shè)備資源和人力資源的合并和共享。 對于異構(gòu)數(shù)據(jù)庫系統(tǒng),實現(xiàn)數(shù)據(jù)共享應(yīng)當(dāng)達到兩點:一是實現(xiàn)數(shù)據(jù)庫轉(zhuǎn)換;二是實現(xiàn)數(shù)據(jù)的透明訪問。 WEB SERVICE技術(shù)的出現(xiàn)有利于歷史數(shù)據(jù)庫數(shù)據(jù)的重新利用。,31,文本數(shù)據(jù)庫和萬維網(wǎng)(WWW),文本數(shù)據(jù)庫存儲的是對對象的文字性描述。 文本數(shù)據(jù)庫的分類 無結(jié)構(gòu)類型(大部分的文本資料和網(wǎng)頁) 半結(jié)構(gòu)類型(XML數(shù)據(jù)) 結(jié)構(gòu)類型(圖書館數(shù)據(jù)) 萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫 數(shù)據(jù)挖掘內(nèi)容 內(nèi)容檢索 WEB訪問模式檢索,32,知識庫,針對知識庫中的事實規(guī)則應(yīng)用綜合歸納推理機制,挖掘出深層次的更富概括性的知識,33,34,數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別,35,實踐項目名稱,1、數(shù)據(jù)倉庫軟件的使用方法; 2、客戶數(shù)據(jù)倉庫的建立; 3、編程實現(xiàn)關(guān)聯(lián)分析算法; 4、編程實現(xiàn)決策樹分類算法; 5、數(shù)據(jù)挖掘應(yīng)用分析。,36,課程報告,1、實驗?zāi)康?2、規(guī)格說明 3、算法步驟 4、結(jié)果分析 5、實驗體會 6、結(jié)束語 7、參考文獻 8、程序源碼,源碼要求有清晰明確的注釋。,37,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 挖掘 信息管理 ppt 課件
鏈接地址:http://www.hcyjhs8.com/p-1417066.html