數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)課件



《數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)課件》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)課件(106頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,*,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),*,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆),2024/11/27,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺。,數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟。,,數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析。,,很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識發(fā)現(xiàn)。,,分類,,預(yù)測,,關(guān)聯(lián),,聚集,2.1 什么是數(shù)據(jù)倉庫,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OL
2、AP技術(shù)(武漢大學(xué)李春葆),20世紀80年代中期,“數(shù)據(jù)倉庫”這個名詞首次出現(xiàn)在號稱“數(shù)據(jù)倉庫之父”W.H.Inmon的《Building Data Warehouse》一書中。,,在該書中,W.H.Inmon把數(shù)據(jù)倉庫定義為“,一個面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)的集合,以用于支持管理決策過程,”。,2.1.1 數(shù)據(jù)倉庫的定義,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫還有許多不同的定義,如:,,“,數(shù)據(jù)倉庫是融合方法、技術(shù)和工具以在完整的平臺上將數(shù)據(jù)提交給終端用戶的一種手段,”。,,“,數(shù)據(jù)倉庫是對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,”
3、。,,“,數(shù)據(jù)倉庫是一種具有集成性、穩(wěn)定性和提供決策支持的處理,”。,,“,為查詢和分析(不是事務(wù)處理)而設(shè)計的關(guān)系數(shù)據(jù)庫,”,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),在眾多的數(shù)據(jù)倉庫定義中,公認的仍然是W.H.Inmon的定義,該定義指出了數(shù)據(jù)倉庫,面向主題、集成、穩(wěn)定、隨時間變化,這4個最重要的特征。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(1)面向主題,,,主題,就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進行綜合、歸類所形成的分析對象。,如顧客、供應(yīng)商、產(chǎn)品和銷售組織等,。,,從數(shù)據(jù)組織的角度看,,主題是一些數(shù)據(jù)集合,,這些數(shù)據(jù)集合對分
4、析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。,,面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(2)集成,,數(shù)據(jù)倉庫中存儲的數(shù)據(jù)一般從企業(yè)原來已建立的數(shù)據(jù)庫系統(tǒng)中提取出來,但并不是原有數(shù)據(jù)的簡單拷貝,而是經(jīng)過了,抽取、篩選、清理、綜合,等工作。這是因為:,,1) 原有數(shù)據(jù)庫系統(tǒng)記錄的是每一項業(yè)務(wù)處理的流水帳,這些數(shù)據(jù)不適合于分析處理。在進入數(shù)據(jù)倉庫之前必須經(jīng)過綜合、計算,同時拋棄一些分析處
5、理不需要的數(shù)據(jù)項,必要時還要增加一些可能涉及的外部數(shù)據(jù)。,,2) 數(shù)據(jù)倉庫每一個主題所對應(yīng)的源數(shù)據(jù)在源分散數(shù)據(jù)庫中有許多重復(fù)或不一致之處,必須將這些數(shù)據(jù)轉(zhuǎn)換成全局統(tǒng)一的定義,消除不一致和錯誤之處,以保證數(shù)據(jù)的質(zhì)量;顯然,對不準確,甚至不正確的數(shù)據(jù)分析得出的結(jié)果將不能用于指導(dǎo)企業(yè)做出科學(xué)的決策。,,3) 源數(shù)據(jù)加載到數(shù)據(jù)倉庫后,還要根據(jù)決策分析的需要對這些數(shù)據(jù)進行概括、聚集處理。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(3)穩(wěn)定性即非易失的,,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中一般只存儲短期數(shù)據(jù),因此在數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。,,但對于決策分析而言,歷史數(shù)據(jù)是
6、相當重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有大量歷史數(shù)據(jù)的支持是難以進行企業(yè)的決策分析的,因此,數(shù)據(jù)倉庫中的數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),,主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(4)隨時間而變化即時變的,,數(shù)據(jù)倉庫中數(shù)據(jù)是批量載入的,是穩(wěn)定的,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時間維度。,,從這個角度,,數(shù)據(jù)倉庫實際是記錄了系統(tǒng)的各個瞬態(tài),,并通過將各個瞬態(tài)連接起來形成動畫,從而在數(shù)據(jù)分析的時候再現(xiàn)系統(tǒng)運動的全過程。數(shù)據(jù)批量載入(提?。┑闹芷趯嶋H上決定了動畫間隔的時
7、間,數(shù)據(jù)提取的周期短,則動畫的速度快。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.1.2 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)的區(qū)別,操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機事務(wù)處理OLTP,,日常操作: 購買,庫存,銀行,制造,工資,注冊,記帳等。,,數(shù)據(jù)倉庫的主要任務(wù)是聯(lián)機分析處理OLAP,,數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP 和OLAP的比較 (1/3),用戶和系統(tǒng)的面向性,,面向顧客(事務(wù)),?,面向市場(分析)。,,數(shù)據(jù)內(nèi)容,,當前的、詳細的數(shù)據(jù),?,歷史的、匯總的數(shù)據(jù)。,,數(shù)據(jù)庫設(shè)計,,實體-
8、聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計,?,星型/雪花模型和面向主題的數(shù)據(jù)庫設(shè)計。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP 和OLAP的比較(2),數(shù)據(jù)視圖,,當前的、企業(yè)內(nèi)部的數(shù)據(jù),?,經(jīng)過演化的、集成的數(shù)據(jù)。,,訪問模式,,事務(wù)操作,?,只讀查詢(但很多是復(fù)雜的查詢),,任務(wù)單位,,簡短的事務(wù),?,復(fù)雜的查詢。,,訪問數(shù)據(jù)量,,數(shù)十個,?,數(shù)百萬個。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP和OLAP的比較(3),用戶數(shù),,數(shù)千個,?,數(shù)百個。,,數(shù)據(jù)庫規(guī)模,,100M~數(shù)GB,?,100GB~數(shù)TB。,,設(shè)計優(yōu)先性,,高性能、高可用性,?,高
9、靈活性、端點用戶自治。,,度量,,事務(wù)吞吐量,?,查詢吞吐量、響應(yīng)時間。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.1.3 為什么需要一個分離的數(shù)據(jù)倉庫?,提高兩個系統(tǒng)的性能,,DBMS是為OLTP而設(shè)計的:存儲方式、索引、 并發(fā)控制和 恢復(fù)。,,數(shù)據(jù)倉庫是為OLAP而設(shè)計:復(fù)雜的 OLAP查詢、 多維視圖和匯總。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),不同的功能和不同的數(shù)據(jù):,,歷史數(shù)據(jù):決策支持需要歷史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會去維護。,,數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)。,,數(shù)據(jù)質(zhì)量:不同的源使用不一致的數(shù)據(jù)表示、編
10、碼和格式,對這些數(shù)據(jù)進行有效的分析需要將他們轉(zhuǎn)化后進行集成。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.1.4 數(shù)據(jù)倉庫中的關(guān)鍵名詞,,1. ETL(Extract/Transformation/Load)—數(shù)據(jù)抽取、轉(zhuǎn)換、加載工具,,ETL工具就是進行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載工具。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(1)數(shù)據(jù)提取(Data Extract),,從業(yè)務(wù)數(shù)據(jù)庫只需提取出系統(tǒng)分析必需的那一部分數(shù)據(jù)。例如,某超市確定以分析客戶的購買行為為主題建立數(shù)據(jù)倉庫,則我們只需將與客戶購買行為相關(guān)的數(shù)據(jù)提取出來,而超市服務(wù)員工的數(shù)據(jù)就沒有必要放進數(shù)據(jù)倉庫。,
11、,現(xiàn)有的數(shù)據(jù)倉庫產(chǎn)品幾乎都提供各種關(guān)系型數(shù)據(jù)接口,提供提取引擎,從關(guān)系型數(shù)據(jù)中提取數(shù)據(jù)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,(2)數(shù)據(jù)轉(zhuǎn)換(Data Transform),,由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫廠商的產(chǎn)品,比如IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。如時間格式“年/月/日”,“月/日/年”、“日-月-年”的不一致問題等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,,(3)數(shù)據(jù)清洗(Data
12、 Clean),,所謂“清洗”就是將錯誤的、不一致的數(shù)據(jù)在進入數(shù)據(jù)倉庫之前予以更正或刪除,以免影響決策支持系統(tǒng)決策的正確性。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(4) 數(shù)據(jù)加載(Data Load),,數(shù)據(jù)加載部件負責將數(shù)據(jù)按照物理數(shù)據(jù)模型定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉庫,包括清空數(shù)據(jù)域、填充空格、有效性檢查等步驟。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,2. 元數(shù)據(jù)(MetaData),,“什么是元數(shù)據(jù)?”元數(shù)據(jù)是,描述數(shù)據(jù)的數(shù)據(jù),。,,在數(shù)據(jù)倉庫中,元數(shù)據(jù)是定義數(shù)據(jù)倉庫對象的數(shù)據(jù)。元數(shù)據(jù)包括相應(yīng)數(shù)據(jù)倉庫的數(shù)據(jù)名和定義、數(shù)據(jù)提取操作時被提取數(shù)據(jù)的時間和地點以及數(shù)
13、據(jù)清理或數(shù)據(jù)集成過程添加的字段等。它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。,CREATE TABLE student,,{ no int;,,name char(10);,,sex char(2);,,class char(8);,,},no,name,sex,class,1,張三,男,1301,…,…,…,…,,,,,數(shù)據(jù),數(shù)據(jù)的數(shù)據(jù):元數(shù)據(jù),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,3. 數(shù)據(jù)集市(Data Market),,數(shù)據(jù)倉庫中存放的是整個企業(yè)的信息,并且數(shù)據(jù)是按照不同主題來組織的。比如市場發(fā)展規(guī)律的分析主題主要由市場
14、部門的人員使用,我們可以在邏輯上或者物理上將這部分數(shù)據(jù)分離出來,當市場部門人員需要信息時,不需要到數(shù)據(jù)倉庫的巨量數(shù)據(jù)中檢索,而只需在相應(yīng)的部門數(shù)據(jù)上進行分析,因此從效率和處理速度的角度出發(fā),這種劃分是合算的。,,,這種面向企業(yè)中的某個部門(主題)而,在邏輯上或物理上劃分出來的數(shù)據(jù)倉庫中的數(shù)據(jù)子集,稱為,數(shù)據(jù)集市,。換句話說,數(shù)據(jù)集市包含了用于特殊目的數(shù)據(jù)倉庫的部分數(shù)據(jù)。,,數(shù)據(jù)倉庫面向整個企業(yè),而數(shù)據(jù)集市則是面向企業(yè)中的某個部門。典型示例是銷售部門、庫存和發(fā)貨部門、財務(wù)部門和高級管理部門等的數(shù)據(jù)集市。數(shù)據(jù)倉庫中存放了企業(yè)的整體信息,而數(shù)據(jù)集市只存放了某個主題需要的信息,其目的是減少數(shù)據(jù)處理量,
15、使信息的利用更快捷、靈活。,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),4. OLAP,,OLAP(On-line Analytical Processing,在線分析處理或聯(lián)機分析處理)就是一個應(yīng)用廣泛的數(shù)據(jù)倉庫使用技術(shù)。,,它可以根據(jù)分析人員的要求,迅速靈活地對大量的數(shù)據(jù)進行復(fù)雜的查詢處理,并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準確地掌握企業(yè)的運營情況,了解市場的需求。,,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2 多維數(shù)據(jù)模型,2.2.1 由表到數(shù)據(jù)立方體,數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型。,,在多維數(shù)據(jù)模型中,數(shù)據(jù)
16、以數(shù)據(jù)立方體(data cube)的形式存在。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實定義。,,維是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性。屬性的集合構(gòu)成一個維(如時間維、機構(gòu)維等)。,,維分層:同一維度還可以在細節(jié)程度不同的各個描述方面(如時間維可包含年、季度、月份和日期等)。,,維屬性:維的一個取值,是數(shù)據(jù)項在某維中位置的描述(如2013年11月2日在時間維上位置的描述),。,,每個維都有一個表與之相關(guān)聯(lián),稱為維表。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),一個數(shù)據(jù)立方體:,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP
17、技術(shù)(武漢大學(xué)李春葆),多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實表表示,。,,事實表包括事實的名稱或度量以及每個相關(guān)維表的關(guān)鍵字。,,事實指的是一些數(shù)字度量。,學(xué)生,課程,分數(shù),1001,2001,89,1002,2002,83,1005,2004,90,┇,┇,┇,學(xué)號,姓名,班號,1,張三,1201,┇,┇,┇,學(xué)生,1001,┇,課程,編號,名稱,2001,1,C++,┇,┇,┇,學(xué)生維表,成績事實表,課程維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP系統(tǒng)是為了快速回答簡單查詢,而不是為了存儲分析趨勢的歷史數(shù)據(jù)而創(chuàng)建的。一般的OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)
18、不易被分析。,查詢某人買房記錄。,,查詢某房的價值。,,…,一個英國房屋銷售系統(tǒng):,兩個系統(tǒng)數(shù)據(jù)組織模式比較示例1,,來源于事務(wù)型的數(shù)據(jù)庫,如采用關(guān)系型數(shù)據(jù)庫進行數(shù)據(jù)存儲,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫需要回答更復(fù)雜的查詢,而不僅僅是一些像“英國主要城市的商品平均銷售價格是多少”之類的簡單聚集數(shù)據(jù)查詢。,,數(shù)據(jù)倉庫需要回答的查詢類型可以是簡單的查詢,也可以是,高度復(fù)雜,的,且還與終端用戶使用的查詢工具相關(guān)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2008年第三季度,整個英格蘭的總收入是多少?,,2007年英國每一類房產(chǎn)銷售的總收入是多少?,,20
19、08年租借房產(chǎn)業(yè)務(wù)中每個城市哪個地域最受歡迎?與過去的兩年相比有何不同?,,每個分支機構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過去的12個月相比較。,,如果對于10萬英鎊以上的房產(chǎn),法定價格上升3.5%而政府稅收下降1.5%,對英國不同區(qū)域的銷售會產(chǎn)生什么影響?,,在英國主要城市中,哪種類型的房產(chǎn)銷售價格高于平均房產(chǎn)銷售價格?這與人口統(tǒng)計數(shù)據(jù)有何聯(lián)系?,英國房屋銷售數(shù)據(jù)倉庫系統(tǒng):,,來源于已處理的或匯總的數(shù)據(jù),要預(yù)先采用數(shù)據(jù)結(jié)構(gòu)如多維模型存放這些匯總的數(shù)據(jù)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,兩個系統(tǒng)數(shù)據(jù)組織模式比較示例2,數(shù)據(jù)庫系統(tǒng),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢
20、大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),面向“商品”、“供應(yīng)商”和“顧客”的數(shù)據(jù)倉庫系統(tǒng),商品數(shù)據(jù)倉庫結(jié)構(gòu),供應(yīng)商數(shù)據(jù)倉庫結(jié)構(gòu),顧客數(shù)據(jù)倉庫結(jié)構(gòu),,來源于的前面的多個表的數(shù)據(jù),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),從上述實例,不難看出:,在從面向應(yīng)用到面向主題的轉(zhuǎn)變過程中,丟棄了原來有的但不必要的、不適于分析的信息;,,在原有的數(shù)據(jù)庫模式中,有關(guān)商品的信息分散在各個子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強調(diào)的就是要形成關(guān)于主題一致的信息集合;,,不同主題之間有重疊內(nèi)容。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.2 多維數(shù)據(jù)模型,
21、,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time 維表,location_key,,street,,city,,state_or_province,,country,location 維表,Sales 事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item 維表,branch_key,,branch_name,,branch_
22、type,branch 維表,數(shù)據(jù)倉庫:事實表+維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),在數(shù)據(jù)倉庫中,數(shù)據(jù)立方體是n-D的(n維),,(關(guān)系表和電子表格是幾維的?),,多維數(shù)據(jù)模型為不同角度上的數(shù)據(jù)建模和觀察提供了一個良好的基礎(chǔ)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例,,AllElectronics的銷售數(shù)據(jù)按維time, item的2-D視圖。,location=“Vancouver“,(,溫哥華 ),item,(,類型,),time,(,季度,),家庭娛樂,,計算機 電話 安全,Q1 605 825 14 4
23、00,,Q2 680 952 31 512,,Q3 812 1023 30 501,,Q4 927 1038 38 580,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),AllElectronics的銷售數(shù)據(jù)按維time, item和location的3-D視圖。,location,= “Chicage”,,item,time,,家庭娛樂 計算機 電話 安全,Q1 854 882 89 623,,Q2 943 890 64 698,,Q3 1032 924 59 789,,Q4 1
24、129 992 63 870,location= “New York”,,item,time,家庭娛樂 計算機 電話 安全,Q1 1087 968 38 623,,Q2 943 890 64 698,,Q3 1032 924 59 789,,Q4 1129 992 63 870,...,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),AllElectronics的銷售數(shù)據(jù)按維time、 item和location的3-D視圖的3-D數(shù)據(jù)立方體表示。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),銷售數(shù)據(jù)的4-D立方體表示。,4維分別是time、item
25、、location和supplier。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),一個n維的數(shù)據(jù)的立方體叫做,基本立方體,。,,給定一個維的集合,我們可以構(gòu)造一個立方體的格,每個都在不同的匯總級或不同的數(shù)據(jù)子集顯示數(shù)據(jù),立方體的格稱為,數(shù)據(jù)立方體,。0維立方體存放最高層的匯總,稱作頂點立方體;而存放最底層匯總的立方體則稱為基本立方體。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)立方體格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,su
26、pplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time, item, location, supplier,0維-頂點立方體,1維-立方體,2維-立方體,3維-立方體,4維-基本立方體,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,,,,,,i,-1維立方體,i,維立方體,,上卷,下鉆,i,越大,數(shù)據(jù)越細,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.3 數(shù)據(jù)倉庫的概念模型,最流行的數(shù)據(jù)倉庫概念模
27、型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實星座模式的形式存在。,,星型模式(Star schema),: 事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數(shù)據(jù),沒有冗余。,1. 星型模式,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),星型模式實例,,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city,,state_or_province,,country,location,sales事實表,,time_key,item_key,,bra
28、nch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item,branch_key,,branch_name,,branch_type,branch,維表,度量,維表,維表,維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),雪花模式(Snowflake schema),: 是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加表中。結(jié)果,模式圖形成類似于雪花的形狀。,2. 雪花
29、模式,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),雪花模式實例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city_key,location,sales事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_key,item,branch_key,,branch_name,,branch_
30、type,branch,supplier_key,,supplier_type,supplier,city_key,,city,,state_or_province,,country,city,星型模式,雪花模式,維表規(guī)格化,維表,度量,維表,維表,維表,維表,維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),事實星座(Fact constellations),: 多個事實表共享維表, 這種模式可以看作星型模式集,因此稱為星系模式(galaxy schema),或者事實星座(fact constellation) 。,,2.
31、 事實星座模式,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),事實星座模式實例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city,,province_or_state,,country,location,sales事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item,
32、branch_key,,branch_name,,branch_type,branch,,航運事實表,,time_key,item_key,,shipper_key,,from_location,,to_location,,dollars_cost,,units_shipped,shipper_key,,shipper_name,,location_key,,shipper_type,shipper,,星型/雪花模式,事實模式,多個事實表共享維表,度量,維表,維表,維表,維表,維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.4 一種數(shù)據(jù)倉庫查詢語言: DMQL,DMQL首先
33、包括定義數(shù)據(jù)倉庫和數(shù)據(jù)集市的語言原語,這包括兩種原語定義:一種是立方體定義,一種是維定義,,立方體定義 (事實表),,define cube []: ,,維定義 (維表),,define dimension as (),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),實例:使用DMQL定義星型模式,define cube,sales_star [time, item, branch, location]:,,dollars_sold = sum(sales_in_dollars), avg_sales = avg(
34、sales_in_dollars), units_sold = count(*),,define dimension,time,as (,time_key, day, day_of_week, month, quarter, year),,define dimension,item,as,(item_key, item_name, brand, type, supplier_type),,define dimension,branch,as,(branch_key, branch_name, branch_type),,define dimension,location,as,(locatio
35、n_key, street, city, province_or_state, country),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),星型模式實例,,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city,,state_or_province,,country,location,sales事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,ite
36、m_name,,brand,,type,,supplier_type,item,branch_key,,branch_name,,branch_type,branch,維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),實例:使用DMQL定義雪花模式,define cube,sales_snowflake [time, item, branch, location]:,,dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*),,define dim
37、ension,time,as,(time_key, day, day_of_week, month, quarter, year),,define dimension,item,as,(item_key, item_name, brand, type,,supplier(supplier_key, supplier_type)),,define dimension,branch,as,(branch_key, branch_name, branch_type),,define dimension,location,as,(location_key, street,,city(city_key,
38、 province_or_state, country)),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),雪花模式實例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city_key,location,sales事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,,item_key,,item_name,,brand,,type,,supplier_key,item,bra
39、nch_key,,branch_name,,branch_type,branch,supplier_key,,supplier_type,supplier,city_key,,city,,state_or_province,,country,city,星型模式,雪花模式,維表規(guī)格化,維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),實例:使用DMQL定義事實星座模式,define cube,sales [time, item, branch, location]:,,dollars_sold = sum(sales_in_dollars), avg_sales = avg(sa
40、les_in_dollars), units_sold = count(*),,define dimension,time,as,(time_key, day, day_of_week, month, quarter, year),,define dimension,item,as,(item_key, item_name, brand, type, supplier_type),,define dimension,branch,as,(branch_key, branch_name, branch_type),,define dimension,location,as,(location_k
41、ey, street, city, province_or_state, country),,define cube,shipping [time, item, shipper, from_location, to_location]:,,dollar_cost = sum(cost_in_dollars), unit_shipped = count(*),,define dimension,time,as,time,in cube,sales,,define dimension,item,as,item,in cube,sales,,define dimension,shipper,as,(
42、shipper_key, shipper_name, location,as,location,in cube,sales, shipper_type),,define dimension,from_location,as,location,in cube,sales,,define dimension,to_location,as,location,in cube,sales,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),事實星座模式實例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,
43、street,,city,,province_or_state,,country,location,sales事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item,branch_key,,branch_name,,branch_type,branch,,航運事實表,,time_key,item_key,,shipper_key,,from_location,,to_location,,dolla
44、rs_cost,,units_shipped,shipper_key,,shipper_name,,location_key,,shipper_type,shipper,星型/雪花模式,事實模式,多個事實表共享維表,維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.5 度量的分類,一個數(shù)據(jù)立方體的度量是一個,數(shù)值函數(shù),,該函數(shù)可以對數(shù)據(jù)立方體的每一個點求值。,,度量可以根據(jù)其所用的聚集函數(shù)分為三類:,,分布的:將函數(shù)用于n個聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。,,比如:count(),sum(),min(),max()等,,代數(shù)的:函數(shù)可以由一個帶M個參
45、數(shù)的代數(shù)函數(shù)計算(M為有界整數(shù)),而每個參數(shù)值都可以由一個分布的聚集函數(shù)求得。,,比如:avg(),min_N(),standard_deviation(),,整體的:描述函數(shù)的子聚集所需的存儲沒有一個常數(shù)界。,,比如:median(),mode(),rank(),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.6 概念分層,,一個,概念分層,(concept hierarchy)定義一個映射序列,將低層概念映射到更一般的高層概念,,例如表示location的概念:杭州,?浙江?中國?亞洲。,,概念分層允許我們在各種抽象級審查和處理數(shù)據(jù)。,,概念分層可以由系統(tǒng)用戶、領(lǐng)域?qū)<?、?/p>
46、識工程師人工地提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動地產(chǎn)生。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),概念分層 : location維的一個概念分層,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,...,...,...,all,region,office,country,Toronto,Frankfurt,city,許多概念分層的定義隱含在數(shù)據(jù)庫的模式中。比如:location維的定義,office 47、性 按一個全序相關(guān),形成一個層次結(jié)構(gòu):,year,day,quarter,month,week,維的屬性也可以組成一個偏序,形成一個格:,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),price屬性上的概念分層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),概念層次是一個偏序集(H,<),其中,H是概念的一個有限集,<是關(guān)于H的一個偏序。,年,月,季度,日,星期,,,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),概念分層 ——使用,概念分層為不同級別上的數(shù)據(jù)匯總提供了一個良好的基礎(chǔ),,綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對數(shù)據(jù)獲得更深入的洞察力,,通過在多維數(shù)據(jù)模 48、型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對數(shù)據(jù)進行觀察成為可能。,,多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對數(shù)據(jù)進行觀察成為可能,而概念分層則提供了從不同層次對數(shù)據(jù)進行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.7 多維數(shù)據(jù)模型上的OLAP操作,上卷(roll-up):匯總數(shù)據(jù),,通過一個維的概念分層向上攀升或者通過維歸約。,,當用維歸約進行上卷時,一個或多個維由給定的數(shù)據(jù)立方體刪除。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武 49、漢大學(xué)李春葆),示例:OLAP 操作-上卷,在 location上卷(由 cities 到 countries匯總),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),下鉆(drill-down):上卷的逆操作,,由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實現(xiàn) (為給定數(shù)據(jù)添加更多細節(jié))。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作-下鉆,在 time下鉆 (由 quarters 到 months細化),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),切片和切塊(slice and dice),,,切片操作在給定的數(shù)據(jù)立 50、方體的,一個維,上進行選擇,導(dǎo)致一個子方切塊操作通過對兩個或多個維進行選擇,定義子方。,,切塊操作在給定的數(shù)據(jù)立方體的,多個維,上進行選擇,導(dǎo)致一個子方切塊操作通過對兩個或多個維進行選擇,定義子方。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作-切片,切片條件: time=“Q2”,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作- 切塊,切塊條件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” 51、or “computer”),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),轉(zhuǎn)軸(pivot),,立方體的重定位,可視化,或?qū)⒁粋€3維立方體轉(zhuǎn)化為一個2維平面序列。,,轉(zhuǎn)軸是一種可視化操作,通過轉(zhuǎn)動當前數(shù)據(jù)的視圖來提供一個數(shù)據(jù)的替代表示。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作-轉(zhuǎn)軸,轉(zhuǎn)軸,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),其他OLAP操作,,鉆過(drill_across):執(zhí)行涉及多個事實表的查詢。,,鉆透(drill_through):使用關(guān)系SQL機制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表。,,其他OLAP操作可能包括列出 52、表中最高或最低的N項,以及計算移動平均值、增長率、利潤、統(tǒng)計函數(shù)等等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.3 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu),2.3.1 數(shù)據(jù)倉庫的設(shè)計步驟和結(jié)構(gòu),設(shè)計和構(gòu)造數(shù)據(jù)倉庫、三層數(shù)據(jù)倉庫結(jié)構(gòu)。,介紹中小型數(shù)據(jù)倉庫的一般設(shè)計方法。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么?,,通過提供相關(guān)數(shù)據(jù)與信息,獲得競爭優(yōu)勢。,,通過有效地收集精確地描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高。,,通過提供不同級別(部門、市場、商業(yè))的客戶視圖,協(xié)助客戶關(guān)系管理。,,通過追蹤長期趨勢、異常等,降低成本。,,有效構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵:理解 53、和分析商業(yè)需求,,通過提供一個商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖。,1. 數(shù)據(jù)倉庫設(shè)計:一個商務(wù)分析框架,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫設(shè)計的四種視圖,,自頂向下視圖,,允許我們選擇數(shù)據(jù)倉庫所需的相關(guān)信息。,,數(shù)據(jù)源視圖,,揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲和管理的信息。,,數(shù)據(jù)倉庫視圖,,由事實表和維表所組成。,,商務(wù)查詢視圖,,從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2. 數(shù)據(jù)倉庫的設(shè)計過程,自頂向下法、自底向上法或者兩者的混合方法,,自頂向下法:由總體設(shè)計和規(guī)劃開始,,在技術(shù)成熟、商業(yè)理解透徹的 54、情況下使用。,,自底向上法:以實驗和原型開始,,常用在模型和技術(shù)開發(fā)的初期,可以有效的對使用的技術(shù)和模型進行評估,降低風(fēng)險。,,混合方法:上述兩者的結(jié)合,,從軟件工程的觀點,,瀑布式方法:在進行下一步前,每一步都進行結(jié)構(gòu)化和系統(tǒng)的分析。,,螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),典型的數(shù)據(jù)倉庫設(shè)計過程,,選取待建模的商務(wù)過程,,找到所構(gòu)建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運、訂單等等。,,選取商務(wù)過程的顆粒度,,數(shù)據(jù)起始于多細的顆粒度,比如,記錄每條詳細訂單,或是開始于每日的匯總數(shù)據(jù)。,,選取用于每個事實表記錄的維,,常 55、用的維有:時間、貨物、客戶、供應(yīng)商等。,,選取將安放在事實表中的度量,,常用的數(shù)字度量包括:售價、貨物數(shù)量等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.3.2 三層數(shù)據(jù)倉庫架構(gòu),,數(shù)據(jù)倉庫,,,,提取,,清理,,轉(zhuǎn)換,,裝入,,刷新,OLAP服務(wù)器,查詢報告,,分析,,數(shù)據(jù)挖掘,監(jiān)控、,,整合,,,,元數(shù)據(jù),,存儲,數(shù)據(jù)源,前端工具,輸出,,,,,,數(shù)據(jù)集市,,,,,,,操作數(shù)據(jù)庫,其他外部信息源,,,,數(shù)據(jù)倉庫服務(wù)器,,,,,OLAP服務(wù)器,底層 中間層 前端層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)( 56、武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),底層:數(shù)據(jù)倉庫的數(shù)據(jù)庫服務(wù)器,,關(guān)注的問題:如何從這一層提取數(shù)據(jù)來構(gòu)建數(shù)據(jù)倉庫(通過網(wǎng)關(guān)(ODBC,JDBC,OLE/DB等)來提?。?,中間層:OLAP服務(wù)器,,關(guān)注的問題:OLAP服務(wù)器如何實施(關(guān)系型OLAP,多維OLAP等)。,,前端客戶工具層,,關(guān)注的問題:查詢工具、報表工具、分析工具、挖掘工具等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉庫模型有以下三種:,,企 57、業(yè)倉庫,,搜集關(guān)于跨越整個組織的主題的所有信息。,,數(shù)據(jù)集市,,企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數(shù)據(jù)集市。,,獨立的數(shù)據(jù)集市 VS. 非獨立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)。,,虛擬倉庫,,操作數(shù)據(jù)庫上的一系列視圖。,,只有一些可能的匯總視圖被物化。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫開發(fā)上的困難,,自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最?。坏窃摲椒ㄊ职嘿F,需要對組織進行長期研究和建模分析。,,自底向上方法提供了更多的開發(fā)靈活性,價格便宜;但往往會遇到集成問題(每個模塊單獨運 58、行都沒有問題,但是一集成就出異常)。,,解決方法,,使用遞增性、演化性的開發(fā)方法,,高層數(shù)據(jù)模型,?,企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā),?,通過分布式模型集成各數(shù)據(jù)集市,?,多層數(shù)據(jù)倉庫。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.3.3 OLAP服務(wù)器類型,邏輯上,OLAP服務(wù)器從數(shù)據(jù)倉庫或數(shù)據(jù)集市中給商業(yè)用戶提供多維數(shù)據(jù),,物理上,OLAP的底層數(shù)據(jù)存儲實現(xiàn)可以有多種不同的方式,,關(guān)系OLAP服務(wù)器(ROLAP),,使用關(guān)系數(shù)據(jù)庫或擴展的關(guān)系數(shù)據(jù)庫存放并管理數(shù)據(jù)倉庫的數(shù)據(jù),而用OLAP中間件支持其余部分。,,包括每個DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實現(xiàn),附加的工具和服務(wù)。,,較大 59、的可擴展性。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),多維OLAP服務(wù)器(MOLAP),,基于數(shù)組的多維存儲引擎(稀疏矩陣技術(shù))。,,能對預(yù)計算的匯總數(shù)據(jù)快速索引。,,混合OLAP服務(wù)器(HOLAP),,結(jié)合上述兩種技術(shù),更大的使用靈活性。,,特殊的SQL服務(wù)器,,在星型和雪花模型上支持SQL查詢。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.4 數(shù)據(jù)倉庫的實現(xiàn),數(shù)據(jù)倉庫中的OLAP查詢是一種海量數(shù)據(jù)計算 (想象一下對過去10年各地區(qū)的軟件產(chǎn)品銷售的匯總查詢),,用戶卻希望這個計算能在數(shù)秒鐘內(nèi)完成,,解決方法在于給出一種有效的計算數(shù)據(jù)立方體的方法,,匯總的數(shù)據(jù)立方 60、體可以被看成是一個立方體的格,,最底層的立方體是基本立方體,,最頂端的立方體(頂點)只包含一個單元的值,,一個n維的數(shù)據(jù)立方體,每維L,i,層,可能產(chǎn)生的立方體總數(shù)是多少?,2.4.1 數(shù)據(jù)立方體的有效計算,1表示原始數(shù)據(jù)即all層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),編號,日期,商品,地區(qū),數(shù)量,1,2011.5.10,長虹電視機,南京市…,1,2,2011.5.20,美的微波爐,上海市…,2,3,2011.6.2,…,…,1,4,2011.6.10,…,…,2,5,2011.7.12,…,…,3,6,2011.8.18,…,…,2,…,…,…,…,…,事實表(可看成是基本 61、立方體):,一個立方體是某種匯總的結(jié)果,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),地區(qū)維(上卷到省市),日期維(上卷到季度),商品維(上卷到商品類別),,一個立方體(3維),立方體是OLAP的基礎(chǔ)。例如:,,對比江蘇和上海在2010二季度的日用品銷售情況,,當上述立方體存在時,其計算過程就非???。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,(商品),(地區(qū)),(),(日期),(地區(qū),商品),(地區(qū),日期),(商品,日期),(地區(qū),商品,日期),當,L,i,=1時(沒有概念分層),,T,=2,n,,這里有8個立方體。 62、,立方體格:,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),則立方體總數(shù),T,=(4+1)×(3+1)×(2+1)=60個,,盡管立方體可以提高OLAP的效率,但事先產(chǎn)生所有的立方體是不現(xiàn)實的。,年,月,季度,日,假設(shè)日期:,,4層,假設(shè)地區(qū):,假設(shè)商品:,商品大類,商品小類,省,市,縣,,3層,,2層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)立方體的物化,數(shù)據(jù)立方體的物化可以有以下三種選擇:,,全物化,,預(yù)先計算所有立方體。對于n維數(shù)據(jù)立方體,可能產(chǎn)生的立方體總數(shù)是T=(L,1,+1)(L,2,+1)…(L,n,+1),L,i,表示維i的層次數(shù),例如,n=10,每維 63、10層,則立方體總數(shù)約為9800000個。,,日用品涉及的立方體,例:求2010一季度的日用品,通常,這種選擇需要海量存儲空間來存放所有預(yù)計算的立方體。,,優(yōu)點是OLAP速度快。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),不物化,,不預(yù)先計算任何“非基本”立方體,,,,,,,,,,,,,,,,,,,,,,,事實表,匯總,涉及大量上卷操作(表連接),,這可能導(dǎo)致回答查詢時,因進行昂貴的多維聚集計算,速度非常慢。,維災(zāi)難?。?!,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),部分物化,,有選擇的計算一個所有立方體的適當子集,,考慮因素,:(1),確定要物化的立方體;(2)在查詢時 64、利用物化的立方體;(3)在裝載和刷新時,有效地更新物化的立方體,,有選擇地計算整個可能的立方體集中一個適當?shù)淖蛹?。部分物化是存儲空間和響應(yīng)時間兩者之間的很好折衷。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),確定物化哪些立方體,,考慮工作負荷下的查詢、它們的頻率和它們的開銷等等。,日用品涉及的立方體,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),立方體的操作,DMQL中的立方體定義和計算,,define cube sales[item, city, year]: sum(sales_in_dollars),,compute cube sales,,上述的compute cub 65、e子句可以轉(zhuǎn)化為一個類似于SQL的語句,,SELECT item, city, year, SUM (amount),,FROM SALES,,CUBE BY item, city, year,,這個相當于SQL中以下的group by子句,,(item, city, year) -3D,,(item, city), (item year), (city, year)-2D,,(item), (city), (year) -1D,,() - 0D,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, ite 66、m, year),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),假設(shè)為AllElectrics定義了維和數(shù)據(jù)立方體。,,查詢:,對{brand,province_or_state}查詢year=2004。,,有4個立方體可用:,,立方體1:{year,item_name,city},,立方體2:{year,brand,country},,立方體3:{year,brand,prvoince_or_state},,立方體4:{item_name,province_or_state},其中year=2004,,以上4個立方體,應(yīng)當選擇哪一個處理查詢?,立方體2不能用:較細粒度的數(shù)據(jù)不能由較粗粒度的數(shù)據(jù)產(chǎn)生。可用立方體1、3和4。,立方體3最佳,。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),立方體計算:ROLAP和MOLAP,立方體計算的挑戰(zhàn):海量數(shù)據(jù),有限的內(nèi)存和時間。,,基于ROLAP的方法(底層使用關(guān)系模型存儲數(shù)據(jù)),,將排序、散列(hashing)和分組操作應(yīng)用于維的屬性,以便對相關(guān)元組重新排序和聚類。,,在某些子聚集上分組,作為“部分分組步驟”。,,可以由以前計算
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅決打好反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風(fēng)清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會上和基層單位調(diào)研座談會上的發(fā)言材料
- 總工會關(guān)于2025年維護勞動領(lǐng)域政治安全的工作匯報材料
- 基層黨建工作交流研討會上的講話發(fā)言材料
- 糧食和物資儲備學(xué)習(xí)教育工作部署會上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機關(guān)單位、市紀委監(jiān)委2025年工作計劃
- 檢察院政治部關(guān)于2025年工作計劃
- 辦公室主任2025年現(xiàn)實表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項規(guī)定精神學(xué)習(xí)教育工作部署會議上的講話發(fā)言材料4篇
- 開展深入貫徹規(guī)定精神學(xué)習(xí)教育動員部署會上的講話發(fā)言材料3篇
- 在司法黨組中心學(xué)習(xí)組學(xué)習(xí)會上的發(fā)言材料
- 國企黨委關(guān)于推動基層黨建與生產(chǎn)經(jīng)營深度融合工作情況的報告材料
- 副書記在2025年工作務(wù)虛會上的發(fā)言材料2篇