《第九章-數據挖掘和數據可視化》由會員分享,可在線閱讀,更多相關《第九章-數據挖掘和數據可視化(45頁珍藏版)》請在裝配圖網上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,決策支持系統(tǒng),決策支持系統(tǒng),第九章,數據挖掘與數據可視化,本章學習目的與要求,理解數據挖掘的基本概念;,掌握數據挖掘常用的算法;,理解數據可視化的基本概念;,內容提示,第一節(jié) 數據挖掘,第二節(jié) 數據可視化,第一節(jié) 數據挖掘,第一節(jié) 數據挖掘,數據挖掘的概念;,數據挖掘的任務。,(一)數據挖掘概念,-,前言,信息產業(yè)的發(fā)展引發(fā)了數據的大量聚集,如,一個中等規(guī)模企業(yè)每天要產生,100MB,以上來自各生產經營等多方面的商業(yè)數據;在科研方面,以美國宇航局的數據庫為例,每天從衛(wèi)星下載的數據量就達,34TB,之多,。,
2、據估計,,1993,年全球數據存貯容量約為二千,TB,,到,2000,年增加到三百萬,TB,,面對這極度膨脹的數據信息量,人們受到“信息爆炸”、“混沌信息空間”和“數據過?!钡木薮髩毫Α?前言,人類的各項活動都是基于人類的智慧和知識,即對外部世界的觀察和了解,做出正確的判斷和決策以及采取正確的行動,;,而數據僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒有任何意義。,從數據到知識到智慧,需要經過分析加工處理精煉的過程。,前言,數據與知識間的關系,數據到知識的轉變,數據倉庫,的出現,為更深入對數據進行分析提供了條件,,它不同于管理日常工作數據的數據庫,它更便于分析針對特定主題的
3、集成化的、時變的的數據,且這些數據一旦存入就不再發(fā)生變化,;,OLAP,是數據分析手段的一大進步,以往的分析工具所得到的報告結果只能回答“什么”(,WHAT,),而,OLAP,的分析結果能回答“為什么”(,WHY,)。,數據到知識的轉變,但,O,LAP,是建立在用戶對深藏在數據中的某種知識有預感和假設的前提下,由用戶指導的信息分析與知識發(fā)現過程,;,由于數據倉庫,中的數據來,源于多個數據源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識,而要使企業(yè)能及時準確地做出科學的經營決策,就需要有基于計算機與信息技術的智能化自動工具,來幫助挖掘,隱藏在數據中的各類知識,。,數據挖掘的產生,九十年代中期
4、以來,許多軟件開發(fā)商,基于數理統(tǒng)計、人工智能、機器學習、神經網絡、進化計算和模式識別等多種技術和市場需求,開發(fā)了許多數據挖掘與知識發(fā)現軟件工具,從而形成了近年來軟件開發(fā)市場的熱點。,目前數據挖掘工具已開始向智能化整體數據分析解決方案發(fā)展,這是從數據到知識演化過程中的一個重要里程碑,。,數據挖掘的產生,數據到知識的演化過程示意圖,(一)數據挖掘的概念,數據挖掘,(,Data Mining,DM,):又名數據庫中的,知識發(fā)現,(,Knowledge discovery from database,簡稱,KDD,),,它是一個從大量數據中抽取挖掘出,未知的、有價值,的模式或規(guī)律等知識的復雜過程,。,
5、簡單地講就是從大量數據中挖掘或抽取出知識。,數據挖掘的步驟,數據挖掘過程示意圖,數據挖掘的過程,整個知識挖掘過程是由若干挖掘步驟組成,而數據挖掘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有:,(,1,),數據清洗,:清除數據噪聲和與挖掘主題明顯無關的數據;,(,2,),數據集成,:將來自多數據源中的相關數據組合到一起;,(,3,),數據轉換,:將數據轉換為易于進行數據挖掘的數據存儲形式。,數據挖掘的過程,(,4,),數據挖掘,:利用智能方法挖掘數據模式或規(guī)律知識;,(,5,),模式評估,:根據一定評估標準從挖掘結果篩選出有意義的模式知識;,(,6,),知識表示,:,利用可視化和知識表達技術
6、,向用戶展示所挖掘出的相關知識,。,(二)數據挖掘的任務,利用數據挖掘技術可以幫助獲得決策所需的多種知識。在許多情況下,用戶并不知道數據存在哪些有價值的信息知識,因此對于一個數據挖掘系統(tǒng)而言,它應該能夠同時搜索發(fā)現多種模式的知識,以滿足用戶的期望和實際需要,。,(二)數據挖掘的任務,數據挖掘功能以及所能夠挖掘的知識類型說明描述如下:,(,1,)關聯分析;,(,2,)分類與預測;,(,3,)聚類分析;,(,4,)異類分析;,(,5,)演化分析,。,(,1,)關聯分析,關聯分析(,association analysis,)就是從給定的數據集發(fā)現頻繁出現的項集模式知識(又稱為關聯規(guī)則,,assoc
7、iation rules,)。,關聯分析廣泛用于市場營銷、事務分析等應用領域。,通常關聯規(guī)則具有:,X Y,形式,表示“數據庫中的滿足,X,中條件的記錄也一定滿足,Y,中的條件”,。,關聯分析示例,一個數據挖掘系統(tǒng)可以從一個商場的銷售,(,交易事務處理,),記錄數據中,挖掘出如下所示的關聯規(guī)則:,Age(X,”20-29”)income(X,“20K-30K”)buys(X,”MP3”),support=2%,confidence=60%,上述關聯規(guī)則表示:該商場有,2%,的顧客年齡在,20,歲到,29,歲且收入在,2,萬到,3,萬之間,這群顧客中有,60%,的人購買了,MP3,,或者說這群顧
8、客購買,MP3,的概率為,60%,。,(,2,)分類與預測,分類(,classification,)就是找出一組能夠描述數據集合典型特征的模型(或函數),以便能夠分類識別未知數據的歸屬或類別(,class,),即將未知事例映射到某種離散類別之一。,分類模型(或函數)可以通過分類挖掘算法從一組訓練樣本數據(其類別歸屬已知)中學習獲得。,(,2,)分類與預測,分類通常用于預測未知數據實例的歸屬類別(有限離散值),如一個銀行客戶的信用等級是屬于,A,級、,B,級還是,C,級。,但在一些情況下,需要預測某數值屬性的值(連續(xù)數值),這樣的分類就被稱為預測(,prediction,)。,盡管預測既包括連續(xù)
9、數值的預測,也包括有限離散值的分類;但一般還是使用,預測來表示對連續(xù)數值的預測,;而使用,分類來表示對有限離散值的預測,分類與預測示例,表中給出打高爾夫球與天氣的關系,要求根據條件屬性的不同取值來決定是否可以打高爾夫球。,ID,Outlook,Temperature,Humidity,Windy,Class,1,Overcast,Hot,High,Not,N,2,Overcast,Hot,High,Very,N,3,Overcast,Hot,High,Medium,N,38,Sunny,Hot,High,Medium,P,39,Rain,Mild,High,Not,N,40,Rain,Mild
10、,High,Medium,N,分類與預測示例,分類結果(決策樹),(,3,)聚類分析,聚類分析(,clustering analysis,)與分類預測方法明顯不同之處在于:,分類所學習獲取分類預測模型所使用的數據是已知類別歸屬,屬于有教師監(jiān)督學習方法;,而聚類分析所處理的數據均是無類別歸屬。因此聚類分析屬于無教師監(jiān)督學習方法。,聚類原則:類內距離最小,類間距離最大。,(,4,)異類分析,一個數據庫中的數據一般不可能都符合分類預測或聚類分析所獲得的模型。那些不符合大多數數據對象所構成的規(guī)律(模型)的數據對象就被稱為異類(,outlier,)。,對異類數據的分析處理通常就稱為異類挖掘。,(,4,)
11、異類分析,之前許多數據挖掘方法都在正式進行數據挖掘之前就將這些異類作為噪聲或意外而將其排除在數據挖掘的分析處理范圍之內。,但在一些應用場合,如各種商業(yè)欺詐行為的自動檢測,小概率發(fā)生的事件(數據)往往比經常發(fā)生的事件(數據)更有挖掘價值。,例如:可以根據購買的發(fā)生地點、購買商品類型和購買頻率等發(fā)現屬于信用卡詐騙的購買行為(異類數)。,(,5,)演化分析,數據演化分析(,evolution analysis,)就是對隨時間變化的數據對象的變化規(guī)律和趨勢進行建模描述。,這一建模手段包括:概念描述、對比概念描述、關聯分析、分類分析、時間相關數據分析(這其中又包括:時序數據分析、序列或周期模式匹配,以及
12、基于相似性的數據分析,),。,演化分析示例,例如:利用演化分析方法可對股市主要股票交易數據(時序數據)進行分析,以便獲得整個股票市場的股票演化規(guī)律,以及一個特定股票的變化規(guī)律,這種規(guī)律或許能夠幫助預測股票市場上的股票價格,從而有效提高投資回報率。,第二節(jié) 數據可視化,第二節(jié) 數據可視化,數據可視化的概念;,數據可視化的意義。,(一)數據可視化的概念,數據可視化是關于,數據,之視覺表現形式的研究,。,數據可視化是當前的一個熱點問題,特別在交互設計領域,如何把數據,特別是大規(guī)模的數據進行可視化就成為了一個非常熱門的問題,。,(一)數據可視化的概念,可視化,(,Visualization,):利用計
13、算機圖形學和圖像處理技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。,它涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域,成為研究數據表示、數據處理、決策分析等一系列問題的綜合技術,。,數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。,當前,在研究、教學和開發(fā)領域,數據可視化乃是一個極為活躍而又關鍵的方面,。,通過數據可視化技術,可以發(fā)現大量金融、通信和商業(yè)數據中隱含的規(guī)律,從而為決策提供依據。,(一)數據可視化的概念,(二)數據可視化的意義,數據可視化為我們提供了一條清晰有效地傳達與溝通信息的渠道:,(,1,)交互性。用戶可以方
14、便地以交互的方式管理和開發(fā)數據;,(,2,)多維性??梢钥吹奖硎緦ο蠡蚴录臄祿亩鄠€屬性或變量,而數據可以按其每一維的值,將其分類、排序、組合和顯示;,(,3,)可視性。數據可以用圖象、曲線、二維圖形、三維體和動畫來顯示,并可對其模式和相互關系進行可視化分析。,數據可視化的應用,(,1,)醫(yī)學:,長期以來人類就有認識自身內部結構的愿望。直到,70,年代計算機斷層掃描(,CT,)和核磁共振圖像(,MRI,)技術和可視化技術的出現,才使獲取人體內部數據的愿望成為現實。,可視化人體計劃(,VHP,)數據集的出現,標志計算機三維重構圖像和虛擬現實技術進入了醫(yī)學領域,從而大大促進了醫(yī)學的發(fā)展和普及。,
15、人類大腦的三維圖像,數據可視化的應用,(,2,)油氣勘探:,目前石油工業(yè)面臨的一個嚴峻問題是:如何尋找規(guī)模小而埋藏深的油氣田。油氣勘探的主要方式,是通過天然地震波或人工爆炸產生的聲波在地質構造中的傳播,來重構大范圍內的地質構造,并通過測井數據了解局部區(qū)域的地層結構,探明油藏氣藏位置及其分布,估計蘊藏量及其勘探價值。由于地震數據及測井數據的數據量極其龐大,而且分布不均勻,因而無法根據紙面上的數據作出分析。利用可視化技術可以從大量的地質勘探數據或測井數據中,構造出感興趣的等值面、等值線,并顯示其范圍及走向,并用不同顏色顯示出多種參數及其 相互關系,從而使專業(yè)人員能對原始數據作出正確解釋,得到礦藏是
16、否存在、礦藏位置及儲量大小等重要信息。,數據可視化的應用,油藏三維圖,數據可視化的應用,(,3,)氣象預報:,氣象預報的準確性依賴于對大量數據的計算和對計算結果的分析。,一方面,科學計算可視化可將大量的數據轉換為圖像,在屏幕上顯示出某一時刻的等壓面、等溫面、旋渦、云層的位置及運動、暴雨區(qū)的位置及其強度、風力的大小及方向等,使預報人員能對未來的天氣作出準確的分析和預測。,另一方面,根據全球的氣象監(jiān)測數據和計算結果,可將不同時期全球的氣溫分布、氣壓分布、雨量分布及風力風向等以圖像形式表示出來,從而對全球的氣象情況及其變化趨勢進行研究和預測。,天氣預報圖,包括云狀,液態(tài)水和風,數據可視化的應用,(,4,)工程:,計算機輔助工程(,CAE,)包括計算機輔助設計(,CAD,)、計算機輔助制造(,CAM,)和計算機輔助運行等多項內容。,可視化技術有助于整個工程過程一體化和流線化,并能使工程的領導和技術人員看到和了解過程中參數變化對整體的動態(tài)影響,從而達到縮短研制周期、節(jié)省工程全壽命費用的目的。,美國航空航天局阿姆斯研究中心的虛擬風洞,思考與練習,1,)數據挖掘技術的概念?,2,)數據可視化技術的概