《數據倉庫與數據挖掘習題.doc》由會員分享,可在線閱讀,更多相關《數據倉庫與數據挖掘習題.doc(9頁珍藏版)》請在裝配圖網上搜索。
數據倉庫與數據挖掘 習題
1.1什么是數據挖掘?在你的回答中,強調以下問題:
(a) 它是又一個騙局嗎?
(b) 它是一種從數據庫,統(tǒng)計學和機器學習發(fā)展的技術的簡單轉換嗎?
(c) 解釋數據庫技術發(fā)展如何導致數據挖掘
(d) 當把數據挖掘看作知識發(fā)現過程時,描述數據挖掘所涉及的步驟。
1.2 給出一個例子,其中數據挖掘對于一種商務的成功至關重要的。這種商務需要什么數據挖掘功能?他們能夠由數據查詢處理或簡單的統(tǒng)計分析來實現嗎?
1.3 假定你是Big-University的軟件工程師,任務是設計一個數據挖掘系統(tǒng),分析學校課程數據庫。該數據庫包括如下信息:每個學生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學分平均)。描述你要選取的結構。該結構的每個成分的作用是什么?
1.4 數據倉庫和數據庫有何不同?它們有那些相似之處?
1.5簡述以下高級數據庫系統(tǒng)和應用:面向對象數據庫,空間數據庫,文本數據庫,多媒體數據庫和WWW。
1.6 定義以下數據挖掘功能:特征化,區(qū)分,關聯,分類,預測,聚類和演變分析。使用你熟悉的現實生活中的數據庫,給出每種數據挖掘的例子。
1.7 區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預測呢?對于每一對任務,它們有何相似之處?
1.8 根據你的觀察,描述一種可能的知識類型,它需要由數據挖掘方法發(fā)現,但未在本章中列出。它需要一種不同于本章列舉的數據挖掘技術嗎?
1. 9 描述關于數據挖掘方法和用戶交互問題的三個數據挖掘的挑戰(zhàn)。
1. 10 描述關于性能問題的兩個數據挖掘的挑戰(zhàn)。
2.1 試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅動的方法(構造使用數據倉庫),而不愿使用查詢驅動的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅動方法比更新驅動方法更受歡迎。
2.2 簡略比較以下概念,可以用例子解釋你的觀點
(a) 雪花模式、事實星座、星型網查詢模型
(b) 數據清理、數據變換、刷新
(c) 發(fā)現驅動數據立方體、多特征方、虛擬倉庫
2.3 假定數據倉庫包含三個維time,doctor和patient,兩個度量count 和charge,其中charge是醫(yī)生對一位病人的一次診治的收費。
(a) 列舉三種流行的數據倉庫建模模式。
(b) 使用(a)列舉的模式之一,畫出上面數據倉庫的模式圖。
(c) 由基本方體[day,doctor,patient]開始,為列出2000年每位醫(yī)生的收費總數,應當執(zhí)行哪些 OLAP操作?
(d) 為得到同樣的結果,寫一個SQL查詢。假定數據存放在關系數據庫中,其模式如下:
fee(day,month,year, doctor,hospital,patient,count,charge)
2.4 假定Big_University的數據倉庫包含如下4個維student, course, semester和instructor,2個度量count和avg_grade。在最低的概念層(例如對于給定的學生、課程、學期和教師的組合),度量avg_grade存放學生的實際成績。在較高的概念層,avg_grade存放給定組合的平均成績。
(a) 為數據倉庫畫出雪花模式圖;
(b) 由基本方體 [student, course, semester, instructor]開始,為列出Big_University每個學生的CS課程的平均成績,應當使用哪些OLAP操作(如由 semester上卷到y(tǒng)ear);
(c) 如果每維有5層(包括all),如student
2.5 假定數據倉庫包含4個維date,spectator,location和game,2個度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費。觀眾可以是學生、成年人或老人,每類觀眾有不同的收費標準。
(a ) 畫出該數據倉庫的星型模式圖;
(b) 由基本方體[date,spectator,location,game]開始,為列出2000年學生觀眾在GM-Place的總付費,應當執(zhí)行哪些OLAP操作?
(c) 對于數據倉庫,位圖索引是有用的。以該數據立方體為例,簡略討論使用位圖索引結構的優(yōu)點和問題。
2.6 為地區(qū)氣象局設計一個數據倉庫。氣象局大約有1000觀察點,散步在該地區(qū)的陸地、海洋,收集基本氣象數據,包括每小時的氣壓、溫度、降雨量。所有的數據都送到中心站,那里已收集了這種數據長達十年。你的設計應當有利于有效的查詢和聯機分析處理,有利于有效地導出多維空間的一般天氣模式。
2.7 關于數據立方體中的度量計算:
(a) 根據計算數據立方體所用的聚集函數,列出度量的三種分類;
(b) 對于具有三個維time,location和product的數據立方體,函數variance屬于哪一類?如果立方體被分割成一些塊,描述如何計算它;
(c) 假定函數是"最高的10個銷售額"。討論如何在數據立方體里有效的計算該度量。
2.8 假定需要在數據立方體中記錄三種度量:min,average和median。給定的數據立方體允許遞增的刪除(即每次一小部分),為每種度量設計有效的計算和存儲方法。
2.9 數據倉庫實現的流行方法是構造一個稱為數據立方體的多維數據庫。不幸的是,這常常產生大的、稀疏的多維矩陣。
(a) 給出一個例子,解釋這種大的、稀疏的數據立方體;
(b) 設計一種實現方法,可以很好的克服這種稀疏矩陣問題。注意,需要詳細解釋你的數據結構,討論空間需求量,以及如何由你的結構中檢索數據;
(c) 修改你在(b)的設計,處理遞增的數據更新。給出你的新設計的理由。
2.10 假定數據倉庫包含20個維,每個維有5級粒度。
(a)用戶感興趣的主要是4個特定的維,每維有3個上卷、下鉆頻繁訪問的級。你如何設計數據立方結構,有效地對此予以支持?
(b)用戶時常想由一兩個特定的維鉆透數據立方體,到原始數據。你如何支持這一特征?
2.11 假定基本立方體有三個維A,B,C,其單元數如下:|A|=1000000, |B|=100,|C|=1000。假定分塊將每維分成10部分。
(a)假定每維只有一層,畫出完整的立方體的格。
(b)如果每個立方單元存放一個4字節(jié)的度量,若方是稠密的,所計算的立方體有多大?
(c)指出立方體中空間需求量最小的塊計算次序,并對計算2-維平面所需要的內存空間計算空間量。
3.1 數據的質量可以用精確性,完整性和一致性來評估。提出兩種數據質量的其他尺度。
3.2 在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。
3.3 假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52, 70
(a) 使用按箱平均值平滑對以上數據進行平滑,箱的深度是3。解釋你的步驟。評論對于給定的數據,該技術的效果
(b) 你怎樣確定數據中的孤立點?
(c) 對于數據平滑,還有那些其他方法?
3.4 討論數據集成需要考慮的問題。
(1) 模式識別:這主要是實體識別問題
(2) 冗余:一個屬性是冗余的,即它能由另一個表導出,如果屬性或唯的命名不一致,也可能導致冗余,可以用相關分析來檢測
(3) 數據值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導致屬性不同
3.5 使用習題3。3給出的age數據,回答以下問題:
(a) 使用最小-最大規(guī)范化,將age值35轉換到[0。0,1。0]區(qū)間
(b) 使用z-score規(guī)范化轉換age 值35,其中age的標準差為12。94年
(c) 使用小數定標規(guī)范化轉換age值35。
(d) 指出對于給定的數據,你愿意使用哪種方法。陳述你的理由。
3.6 使用流程圖概述如下屬性子集選擇過程
(a) 逐步向前選擇
(b) 逐步向后刪除
(c) 逐步向前選擇和逐步向后刪除的結合
3.7 使用習題3.3給出的age數據
(a)畫一個寬度為10的等寬直方圖。
(b)為如下每種選樣技術勾畫例子: SRSWOR, SRSWR, 聚類選擇,分層選擇。使用長度為5的樣本和層"young","middle_aged"和"senior"。
3.8 對如下問題,使用偽代碼或你喜歡用的程序設計語言,給出算法:
(a)對于分類數據,基于給定模式中屬性的不同值得個數,自動產生概念分層。
(b)對于數值數據,基于等寬劃分規(guī)則,自動產生概念分層。
(c)對于數值數據,基于等深劃分規(guī)則,自動產生概念分層。
4.1列出和描述說明數據挖掘任務的五種原語。
4.2 說明為什么概念分層在數據挖掘中是有用的。
4.3 概念分層的四種主要類型是:模式分層,集合分組分層,操作導出的分層和基于規(guī)則的分層。
a)簡略定義每種類型的分層。
b)對于每種類型的分層,給出一個不在本章中出現的例子。
4.4 考慮下面的由Big-University 的學生數據庫挖掘的關聯規(guī)則major (X,"science")=>status(X,"undergrad") (4.8)
假定學校的學生人數(即任務相關的元組數)為5000,其中56%的在校本科生的專業(yè)是科學,64%的學生注冊本科學位課程,70%的學生主修科學。
a) 計算規(guī)則(4.8)的支持度和置信度。
b)考慮下面的規(guī)則(4.9):
major(X,"biology")=>status(X,"undergrad") [17%,80%] (4.9)
假定主攻科學的學生30%專業(yè)為biology。與規(guī)則(4.8)對比,你認為規(guī)則(4.9)新穎嗎? 解釋你的結論。
4.5 語句可以用于挖掘特征化,區(qū)分,關聯和分類規(guī)則。為聚類的挖掘提出一個語法定義。
4.6 論建立標準化的數據挖掘查詢語言的重要性。涉及這一任務的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領域的最近提議。
4.7 下面的練習涉及定義概念分層的DMQL語法。
(a) 典型情況,對于模式date(day,month,quarter,year),數據挖掘系統(tǒng)有一個預定義的概念分層。使用DMQL提供該概念分層的定義。
(b) 概念分層定義可能涉及多個關系。例如,iterm_hierachy可以涉及兩個關系item和supplier,由如下模式定義:
item(item_ID, brand, type, place_made, supplier)
supplier(name, type, headquarter_location, owner, size, assets, revenue)
5.1.對于類特征化, 基于數據立方體的實現與諸如面向屬性歸納的關系實現之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。
5.2 假定下面的表從面向屬性的歸納導出
class &n bsp; birth--- place count
&n bsp; Cannada &nbs p; 180
programmer others ; 120
&nbs p; Cannada &nbs p; 20
Dba &n bsp; others ; 80
(a) 將該表轉換成現實相關t-權和d-權的交叉表
(b) 將類Programmer轉換成(雙向的)量化描述規(guī)則。例如 (birth_place(X)="Canada"∧...)[t:x%,d:y%]...∨(...)([t:w%,d:z%]。?X,Programmer(X)
5.3 討論為什么需要解析特征化和如何進行。比較兩種歸納方法的結果:(I)包含相關分析和(ii)不包含相關分析。
5.4 對于數據離散的特征化,另外給出三個常用統(tǒng)計度量(未在本章說明),并討論如何在大型數據庫中有效地計算它們。
5.5 假定分析數據包含屬性age.數據元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
A 該數據的平均值是多少?中位數是多少?
B 該數據的模是多少?評論數據的模態(tài)性(即雙模態(tài),三模態(tài)等).
C 數據的中列數是什么
D 你能找出(粗略地)數據的第一個四分位數(q1)和第三個四分位數(Q3)嗎?
E 給出數據的五數概括
F 畫出數據的盒圖
G 分位數-分位數圖與分位數圖的不同之處是什么?
5.6 給定由數據庫DB導出的概化關系R,假定元組的集合△ DB需要從DB中刪除,簡要給出用于R的必要刪除的增量更新過程。
5.7 簡要給出挖掘解析類比較的基于數據立方體的增量算法。
5.8 簡要給出數據立方體環(huán)境下數據離散統(tǒng)計度量的(ⅰ)并行和( ⅱ)分布式挖掘方法。
6.1 Apriori 算法使用子集支持度性質的先驗知識
a) 證明頻繁項集的所有非空子集必須也是頻繁的。
b) 證明項集s的任意非空子集s`的支持度至少和s的支持度一樣大。
c) 給定頻繁項集l和l的子集s,證明規(guī)則"s=>(l-s)"的置信度不可能大于"s=>(l-s)"的置信度。其中,s是s的子集。
d) Apriori的一種變形將事務數據庫D中的事務劃分成n個不重疊的部分。證明在D中是頻繁的任何項集至少在D的一個部分中是頻繁的。
6.2 數據庫有4個事務。設min_sup = 60%,min_conf = 80%。
TID DATE ITEMS_BOUGHT
T100 10/15/99 {K, A, D, B}
T200 10/15/99 {D, A, C, E, B}
T300 10/19/99 {C, A, B, E}
T400 10/22/99 {B, A, D}
A) 分別使用Apriori 和FP- 增長算法找出頻繁項集。比較兩種挖掘過程的有效性。
B) 列出所有強關聯規(guī)則,他們與下面的元規(guī)則匹配,其中,X 是代表顧客的變量,item 時表示項的變量: " x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c]
6.3 在挖掘層交叉關聯規(guī)則時,假定發(fā)現項集"{IBM desktop computer, printer}"不滿足最小支持度。這一信息可以用來剪去諸如"{IBM desktop computer, b/w printer}"的"后代"項集的挖掘嗎?給出一個一般規(guī)則,解釋這一信息如何用于對搜索空間剪枝。
6.4 給出一個短例子,表明強關聯規(guī)則中的項可能實際上是負相關的。
6.5 下面的相依表匯總了超級市場的事務數據,其中,hot dogs 表示包含熱狗的事務,~hotdogs 表示不包含熱狗的事務,hamburgers 表示包含漢堡包的事務,~hamburgers 表示不包含漢堡包的事務。
Hotdogs ~hotdogs
Hamburgers 2000 500 2500
~hamburgers 1000 1500 2500
∑ col 3000 2000 5000
A) 假定發(fā)現關聯規(guī)則"hotdogs=>hamburgers "。給定最小支持度閾值25% ,最小置信度閾值 50% ,該關聯規(guī)則是強的嗎?
B) 根據給定的數據,買hotdog 獨立于買hamburgers 嗎?如果不是,二者之間存在何種相關聯系?
6.6 數據庫有4 個事務,設 min_sup = 60% , min_conf = 80% 。
Cust_ID TID Items_bought(以brand- item_category形式)
01 T100 {Kings-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread}
02 T200 {Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread}
01 T300 {Westcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-Pie}
03 T400 {Wonder-Bread, Sunset-Milk, Dairyland-Cheese}
a) 在 item_category 粒度(例如,itemi 可以是"milk" ),對于下面規(guī)則模板
" x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c]
對于最大的k,列出頻繁k-項集和包含最大的k的頻繁k-項集的所有強關聯規(guī)則。
b) 在brand-item_category 粒度(例如:item 可以是"sunset-milk "),對于下面的規(guī)則模板:
" x∈customer, buys(X, item1)∧buys(X, item2) => buys(X, item3)
對最大的k,列出頻繁k-項集。注意:不打印任何規(guī)則。
6.7 假定一個大型存儲具有分布在4個站點的事務數據庫。每個成員數據庫中的事務具有相同的格式Tj:{i1,...,im};其中,Tj是事務標示符,而ik(1<=k<=m)是事務中購買的商品標識符。提出一個有效的算法,挖掘全局關聯規(guī)則(不考慮多層關聯規(guī)則)??梢越o出你的算法的要點。你的算法不必將所有的數據移到一個站點,并且不造成過度的網絡通信開銷。
6.8 假定大型事務數據庫DB的頻繁項集已經存儲。討論:如果新的事務集△DB(增量地)加進,在相同的最小支持度閾值下,如何有效地挖掘(全局)關聯規(guī)則?
6.9 提出并給出挖掘多層關聯規(guī)則的層共享挖掘方法的要點。其中,每個項用它的層位置編碼,一次初始數據庫掃描收集每個概念層的每個項的計數,識別頻繁和子頻繁項集。將用該方法挖掘多層關聯規(guī)則與挖掘單層關聯規(guī)則的花費進行比較。
6.10 證明:包含項h和其祖先h的項集H的支持度與項集H-h的支持度相同。解釋如何將它用于層交叉關聯規(guī)則挖掘。
6.11 提出一種挖掘混合維關聯規(guī)則(多維關聯規(guī)則帶有重復謂詞)的方法。
6.12 序列模式可以用類似于關聯規(guī)則挖掘的方法挖掘。設計一個有效的算法,由事務數據庫挖掘多層序列模式。這種模式的一個例子如下:"買PC的顧客在三個月內將買Microsoft軟件",在其上,可以下鉆,發(fā)現該模式的更詳細的版本,如"買Pentium PC的顧客在三個月內將買Microsoft Office"。
6.13 商店里每種商品的價格是非負的。商店經理只關心如下形式的規(guī)則:"一件免費商品可能觸發(fā)在同一事務中$200的總購物"。陳述如何有效地挖掘這種規(guī)則。
6.14 商店里每種商品的價格是非負的。對于以下每種情況,識別它們提供的約束類型,并簡略討論如何有效地挖掘這種關聯規(guī)則。
(a) 至少包含一件Nintendo游戲。
(b) 包含一些商品,它們的單價和小于$150。
(c) 包含一件免費商品,并且其它商品的單價和至少是$200。
(d) 所有商品的平均價格在$100和$500之間。
7.1 簡述判定樹分類的主要步驟。
7.2 在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣本集計值剪枝的缺點是什么?
7.3 為什么樸素貝葉斯分類稱為"樸素"的?簡述樸素貝葉斯分類的主要思想。
7.4 比較急切分類(如判定樹、貝葉斯、神經網絡)相對于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點。
7.5 通過對預測變量的變換,有些非線性回歸模型可以轉換成線性的。指出如何將非線性回歸方程Y=aXb轉換成可以用最小平方法求解的線性回歸方程。
7.6 什么是推進?陳述它為何能提高判定樹歸納的準確性。
的表決,這里每個分類法的表決是其準確率的函數。推進算法也可以擴充到連續(xù)值預測。
7.7 證明準確率是靈敏性和特效性度量的函數,即證明( 7.31 )式。
7.8 當一個數據對象可以同時屬于多個類時,很難評估分類的準確率。陳述在這種情況下,你將使用何種標準比較在相同數據上的建模的不同分類方法。
7.9 給定判定樹,你有選擇:(a)將判定樹轉換成規(guī)則,然后對結果規(guī)則剪枝,或(b) 對判定樹剪枝,然后將剪枝后的樹轉換成規(guī)則。相對于(b),(a)的優(yōu)點是什么?
7.10 給定k和描述每個樣本的屬性數n,寫一個k-最臨近分類算法。
7.11 下表給出課程數據庫中學生的期中和期末考試成績。
X
其中考試 Y
期末考試
72 84
50 63
81 77
74 78
94 90
86 75
59 49
83 79
65 7 7
33 52
88 74
81 90
(a) 繪數據圖。X和Y看上去具有線性聯系嗎?
(b) 使用最小二乘法,求由學生的期中成績預測學生的期末成績的方程式。
(c) 預測期中成績?yōu)?6分的學生的期末成績。
7.12 下表有雇員數據庫的訓練數據組成。數據已概化。對于給定的行, count表示department,status, age和salary在該行上具有給定值的元組數。
department Status Age Salary count
sales senior 31...35 46K...50K 30
sales& nbsp;junior 26...30 26K...30K 40
sales junior 31...35 31K...35K 40
systems juni or 21...25 46K...50K 20
systems senior 31...35 66K...70K 5
systems junior 26...30 46K...50K 3
systems senior 41...45 66K...70K 3
marketing senior 36...40 46K...50K 10
marketing junior 31...35 41K...45K 4
secretary senior 46...50&nbs p;36K...40K 4
secretary junior 26...30 26K...30K 6
設salary是類標號屬性。
(a) 你將如何修改ID3算法,以便考慮每個概化數據元組(即每一行)的count?
(b) 使用你修改過的ID3算法,構造給定數據的判定樹。
(c) 給定一個數據樣本,它在屬性department,status和age上的值分別為"systems","junior"和"20...24"。該樣本的salary的樸素貝葉斯分類是什么?
(d) 為給定的數據設計一個多層前饋神經網絡。標記輸入和輸出層節(jié)點。
(e) 使用上面得到的多層前饋神經網絡,給定訓練實例"(sales,senior,31...35,46K...50K)",給出后向傳播算法一次迭代后的權值。指出你使用的初始權值和偏置以及學習率。
8.1 給定年齡 age 的變量的如下度量值:18 ,22 , 25 ,42 ,28 , 43 ,33 ,35 , 56 ,28 通過如下的方法進行變量標準化:
a) 計算age 的平均絕對誤差。
b) 計算頭四個值的z -score 。
8.2 給定兩個對象,分別用元組(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示
a) 計算兩個對象之間的歐幾里的距離
b) 計算兩個對象之間的曼哈坦距離
計算兩個對象間的明考斯基距離,q=3。
8.3 什么是聚類?簡單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網格的方法,以及基于模型的方法。為每種方法給出例子。
8.4 假設數據挖掘的任務是將如下8 個點(用(x , y )代表位置)聚類為3 個簇:
A1 ( 2 ,10 ),A2 ( 2 ,5 ),A3 ( 8 ,4 ),
B1 ( 5 ,8 ),B2 ( 7 ,5 ),B3 ( 6 ,4 ),
C1 ( 1 ,2 ),C2 ( 4 ,9 )
距離函數是歐幾里的距離。假設初始選擇A1 ,B1 , C1 分別為每個聚類的中心。請用K 平均算法給出
a) 第一次循環(huán)執(zhí)行后的三個聚類中心;
b) 最后的三個簇。
8.5 人眼在判斷聚類方法對二位數據的聚類質量上是快速而有效的。你能否設計出一個數據可視的方法類似數據聚類可視化和幫助人們判斷三維數據的聚類質量。對更高維的數據如何?
8.6 給出如何集成特定聚類算法的例子,例如,什么情況下一個聚類算法被用作另一個算法的預處理。
9.1異構數據庫系統(tǒng)由多個數據庫系統(tǒng)組成,這些數據庫的定義是相互獨立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。
9.2對象立方體的建立,可以在執(zhí)行多維概化之前通過把面向對象的數據庫概化為結構化數據來完成。試述如何在對象立方體中處理集合值數據。
9.3 空間關聯挖掘可以至少按如下兩種方式加以實現:(i)基于挖掘查詢的要求,可以動態(tài)計算不同空間對象之間的空間關聯關系;(ii)預先計算出空間對象間的空間距離,使得關聯挖掘可以基于這些預計算結果求得。試述(i)如何高效實現上述方法;(ii)各方法的適用條件。
9.4假設某城市的交通部門需要規(guī)劃高速公路的建設,為此希望根據每天不同時刻收集到的交通數據進行有關高速公路大通方面的數據分析。
(a)設計一存儲高速公路交通信息的空間數據倉庫,可以方便地支持人們按高速公路、按一天的時間和按工作日查看平均的和高峰時間的交通流量,以及在發(fā)生重大交通事故時的交通狀況。
(b)可以從該空間數據倉庫中挖掘什么樣的信息用于支持城市規(guī)劃人員?
(c)該數據倉庫既包含了空間數據,也包含了時態(tài)數據。設計一種挖掘技術,可以高效地從該空間-時態(tài)數據倉庫挖掘有意義的模式。
9.5 多媒體中的相似檢索已經成為多媒體數據檢索系統(tǒng)開發(fā)中的主要內容。然而,許多多媒體數據挖掘方法只是基于孤立的簡單多媒體特征分析,如顏色、形狀、描述、關鍵字,等等。
(a)請指出將數據挖掘與基于相似性的檢索結合,可以給多媒體數據挖掘帶來重要的進步??梢杂萌我粩祿诰蚣夹g為例,如多維分析、分類、關聯或聚類等。
(b)請概述應用基于相似性的搜索方法增強多媒體數據中聚類質量的實現技術。
9.6假設一供電站保存了按時間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這一時序數據庫中,如何解決如下問題:
(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;
(b)當能源消耗曲線急劇上升時,20分鐘內會發(fā)生什么情況?
(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?
9.7假設某連鎖餐廳想挖掘出與主要體育事件相關的顧客行為,如"每當電視播出法裔加拿大人的曲棍球比賽時,肯德雞的銷量會在比賽前一小時上升20%"。
(a)給出一種找出這種模式的有效方法。
(b )大部分與時間相關的關聯挖掘算法都使用了類Apriori算法來挖掘此類模式。6.2.4節(jié)中介紹的基于數據庫投影的頻繁模式(FP)增長方法,對挖掘頻繁項集是十分有效的??煞駭U展FP-增長方法去找出此類與時間相關的模式?
9.8一個電子郵件數據庫是指包含了大量電子郵件(e-mail)信息的數據庫。它可以被視為主要包含文本數據的半結構化數據庫。討論以下問題:
(a)如何使一個e-mail數據庫變成結構化的,以便支持多維檢索,如按發(fā)送者、接受者、主題和時問等的檢索。
(b)從e-mail數據庫中可以挖掘什么信息?
(c )假設對以前的一組e-mail 信息有一個粗略的對類,如junk (垃圾),unimportant (不重要),normal (一般),或important (重要),試論述一數據挖掘系統(tǒng)如何以此為訓練集來自動分類新的e-mail 消息或反分類(unclassify )e-mail 信息。
10.1. 給出一個數據挖掘的例子,并且討論在此應用中如何使用各種不同的數據挖掘方法
10.2.假設要在市場上購買一個數據挖掘系統(tǒng)
(a)考慮數據挖掘系統(tǒng)與數據庫和數據倉庫系統(tǒng)耦合方式,試述無耦合、松耦合、半緊耦合和緊耦合之間的區(qū)別;
(b)行可伸縮性和列可伸縮性之間的區(qū)別是什么?
(c)當選擇一個數據挖掘系統(tǒng)時,在以上列出的諸多特征中,哪些是你要關心的?
10.3、考察一個現存的商品化數據挖掘系統(tǒng)。從多個不同角度來看,分析這一系統(tǒng)的主要特征,包括可處理的數據類型,系統(tǒng)體系結構,數據源,數據挖掘功能,數據挖掘方法,與數據庫或數據倉庫系統(tǒng)的耦合度,可伸縮性,可視化工具,和圖形用戶界面。能否對該系統(tǒng)提出一些改進意見,并且概述其實現方法?
10.4、提出幾種對音頻數據挖掘的實現方法??煞駥⒁纛l數據挖掘與可視化數據挖掘結合起來,使得數據挖掘有趣而強大?
10.5、基于現有的對數據挖掘系統(tǒng)和應用的只是,你認為數據挖掘會成為一個巨大的市場嗎?數據挖掘研究與開發(fā)的瓶頸是什么?你認為目前數據挖掘的方法會贏得巨大的系統(tǒng)應用市場份額嗎?如果不是,你能提出一些建議嗎?
10.6、直接查詢應答與智能查詢應答之間的區(qū)別是什么?假設一個用戶要查詢某度假區(qū)的旅館的價格、地址和等級。舉例來說明用直接查詢應答與智能查詢應答處理此查詢的情況。
10.7、為什么說理論基礎的建立對數據挖掘十分重要的?列出并且描述現在已經提出的數據挖掘的主要理論基礎。評論一下每一種理論是如何滿足(或者不滿足)數據挖掘的理想理論框架的要求。
10.8、通用計算機加上于領域獨立的關系數據庫系統(tǒng)在過去的幾十年中,已經形成一個巨大的市場。對數據挖掘而言,我們應該致力于開發(fā)獨立于領域的數據挖掘系統(tǒng),還是應當開發(fā)特定領域的數據挖掘系統(tǒng)?請說出理由。
鏈接地址:http://www.hcyjhs8.com/p-6593487.html