秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

數(shù)據(jù)挖掘原理與算法課件

上傳人:風(fēng)*** 文檔編號(hào):253400331 上傳時(shí)間:2024-12-13 格式:PPT 頁數(shù):54 大?。?70.10KB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘原理與算法課件_第1頁
第1頁 / 共54頁
數(shù)據(jù)挖掘原理與算法課件_第2頁
第2頁 / 共54頁
數(shù)據(jù)挖掘原理與算法課件_第3頁
第3頁 / 共54頁

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)挖掘原理與算法課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘原理與算法課件(54頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、,Click to edit Master,Click to edit Master text styles Click to edit Master Click to edit Master,Second level,Third level,Fourth level,Fifth level,*,*,第八章 空間挖掘,,,,,內(nèi)容提要,引言,,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,1,第八章 空間挖掘,空間挖掘技術(shù)概述,大量的空

2、間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(,GIS,)、多媒體系統(tǒng)、醫(yī)學(xué)和衛(wèi)星圖像等多種應(yīng)用中收集而來,收集到的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過了人腦分析的能力。日益發(fā)展的空間數(shù)據(jù)基礎(chǔ)設(shè)施為空間數(shù)據(jù)的自動(dòng)化處理提出了新的課題。,空間數(shù)據(jù)的最常用的數(shù)據(jù)組織形式是空間數(shù)據(jù)庫??臻g數(shù)據(jù)庫必須保存空間實(shí)體,這些空間實(shí)體是用空間數(shù)據(jù)類型和實(shí)體的空間關(guān)系來表示出來的。空間數(shù)據(jù)庫,不同于關(guān)系數(shù)據(jù)庫,它一般具有空間拓?fù)浠蚓嚯x信息,通常需要以復(fù)雜的多維空間索引結(jié)構(gòu)組織。,空間挖掘(,Spatial Mining,)或被稱作空間數(shù)據(jù)挖掘,/,空間數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn),是數(shù)據(jù)挖掘技術(shù)在空間數(shù)據(jù)方面的應(yīng)用。簡言之,空間數(shù)據(jù)挖掘,就是從空間數(shù)據(jù)庫中抽取隱

3、含的知識(shí)、空間關(guān)系或非顯式地存儲(chǔ)在空間數(shù)據(jù)庫中的其他模式,用于理解空間數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)間(空間或非空間)的關(guān)系。,由于空間數(shù)據(jù)的復(fù)雜性及其應(yīng)用的專業(yè)性,在一般的數(shù)據(jù)挖掘的基本概念的基礎(chǔ)上,需要研究空間數(shù)據(jù)挖掘特有的理論、方法和應(yīng)用。,2024/12/13,2,空間挖掘技術(shù)概述 大量的空間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(GI,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,3,第八章 空間挖掘,空間數(shù)據(jù)的

4、主要特點(diǎn),空間數(shù)據(jù)是指與二維、三維或更高維空間的空間坐標(biāo)及空間范圍相關(guān)的數(shù)據(jù),例如地圖上的經(jīng)緯度、湖泊、城市等。,訪問空間數(shù)據(jù)要比訪問非空間數(shù)據(jù)更復(fù)雜。對(duì)空間數(shù)據(jù)的訪問要使用專門的操作和數(shù)據(jù)結(jié)構(gòu)。空間數(shù)據(jù)可以用包含著諸如“接近、南、北、包含于”等空間操作符的查詢來訪問。,空間數(shù)據(jù)存放在記錄著實(shí)體的空間性數(shù)據(jù)和非空間性數(shù)據(jù)的空間數(shù)據(jù)庫里。由于空間數(shù)據(jù)關(guān)聯(lián)著距離信息,所以空間數(shù)據(jù)庫通常用使用距離或拓?fù)湫畔⒌目臻g數(shù)據(jù)結(jié)構(gòu)或者索引來存儲(chǔ)。就數(shù)據(jù)挖掘而論,這些距離信息提供了所需的相似性度量的基礎(chǔ)。,2024/12/13,4,空間數(shù)據(jù)的主要特點(diǎn)空間數(shù)據(jù)是指與二維、三維或更高維空間的空間,空間數(shù)據(jù)的復(fù)雜性特

5、征,空間數(shù)據(jù)的復(fù)雜性特征主要表現(xiàn)在以下幾個(gè)方面:,空間屬性之間的非線性關(guān)系:,空間屬性之間的非線性關(guān)系是空間系統(tǒng)復(fù)雜性的重要標(biāo)志,被作為空間數(shù)據(jù)挖掘的主要任務(wù)之一。,空間數(shù)據(jù)的多尺度特征:,空間數(shù)據(jù)的多尺度性是指空間數(shù)據(jù)在不同觀察層次上所遵循的規(guī)律以及體現(xiàn)出的特征不盡相同。多尺度特征是空間數(shù)據(jù)復(fù)雜性的又一表現(xiàn)形式。,空間信息的模糊性:,模糊性幾乎存在于各種類型的空間信息中,如空間位置的模糊性、空間相關(guān)性的模糊性以及模糊的屬性值等等。,空間維數(shù)的增高:,空間數(shù)據(jù)的屬性增加極為迅速,如在遙感領(lǐng)域,由于傳感器技術(shù)的飛速發(fā)展,波段的數(shù)目也由幾個(gè)增加到幾十甚至上百個(gè),如何從幾十甚至幾百維空間中提取信息、

6、發(fā)現(xiàn)知識(shí)則成為研究中的又一難題。,空間數(shù)據(jù)的缺值:,數(shù)據(jù)的缺值現(xiàn)象源自由于某種不可抗拒的外力而使數(shù)據(jù)無法獲得或發(fā)生丟失。如何對(duì)丟失數(shù)據(jù)進(jìn)行恢復(fù)并估計(jì)數(shù)據(jù)的固有分布參數(shù),成為解決數(shù)據(jù)復(fù)雜性的難點(diǎn)。,,2024/12/13,5,空間數(shù)據(jù)的復(fù)雜性特征空間數(shù)據(jù)的復(fù)雜性特征主要表現(xiàn)在以下幾個(gè)方,空間查詢問題,查詢是挖掘的技術(shù),空間查詢及其操作的主要特點(diǎn)有:,空間操作相對(duì)復(fù)雜和不精確:,傳統(tǒng)的訪問非空間數(shù)據(jù)的選擇查詢使用的是標(biāo)準(zhǔn)的比較操作符:,>,,,<,,≤,≥,≠。而空間選擇是一種在空間數(shù)據(jù)上的選擇查詢,要用到空間操作符,包括接近、東、西、南、北、包含、重疊或相交等。下面是幾個(gè)空間選擇查詢的例子:,例

7、如,“查找北海公園,附近,的房子”。,空間連接(,Spatial Join,)問題:,在兩個(gè)空間關(guān)系上的一個(gè)空間性連接操作被稱為空間連接(,Spatial Join,)。在空間連接中,關(guān)系都是空間性的,需要與空間連接對(duì)應(yīng)的條件描述。,例如, “相交”關(guān)系用于多邊形;“相鄰”關(guān)系用于點(diǎn)。,相同的地理區(qū)域經(jīng)常有不同的視圖:,一個(gè)區(qū)域不同的視圖(如基礎(chǔ)設(shè)施、城市規(guī)劃、綠化等)保存在單獨(dú)的,GIS,文件中,融合這些數(shù)據(jù),通常需要一個(gè)稱為“地圖覆蓋”(,Map Overlay,)的操作來實(shí)現(xiàn)。,,一個(gè)空間實(shí)體可用空間和非空間的屬性來描述。當(dāng)其空間屬性用一些空間數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)起來之后,非空間屬性就可以存儲(chǔ)在

8、一個(gè)關(guān)系數(shù)據(jù)庫里。對(duì)空間數(shù)據(jù)庫來說,不同的空間實(shí)體經(jīng)常是和不同的位置相關(guān)聯(lián)的,而且在不同的實(shí)體之間進(jìn)行空間性操作的時(shí)候,經(jīng)常需要在屬性之間進(jìn)行一些轉(zhuǎn)換。,2024/12/13,6,空間查詢問題查詢是挖掘的技術(shù),空間查詢及其操作的主要特點(diǎn)有:,空間數(shù)據(jù)結(jié)構(gòu),由于空間數(shù)據(jù)的獨(dú)特性質(zhì),有很多數(shù)據(jù)結(jié)構(gòu)專門被設(shè)計(jì)用來存儲(chǔ)或索引空間數(shù)據(jù)。這些結(jié)構(gòu)有的考慮的是空間實(shí)體的輪廓表示,有的是空間數(shù)據(jù)的索引方法。,空間實(shí)體表示的最常用方法是“最小包圍矩形”。,空間索引技術(shù)大多是基于對(duì)空間目標(biāo)的近似技術(shù),例如,,空間映射法,(,1,)采用低維空間向高維空間映射的方式:,k維空間具有n個(gè)頂點(diǎn)的目標(biāo)可以映射成n*k維空間

9、的點(diǎn)。映射后,可以直接采用點(diǎn)索引技術(shù)。,(,2,)直接向一維空間映射:,通常數(shù)據(jù)空間被劃分成大小相同的網(wǎng)格單元,通過給這些網(wǎng)格單元編碼形成一維目標(biāo),用傳統(tǒng)的一維的索引結(jié)構(gòu)(如B,+,樹等)索引。,分割方法,(,1,)采用不允許空間重疊的索引方法:,將所在的數(shù)據(jù)空間按某種方法(如二叉樹劃分、四叉樹劃分、格網(wǎng)劃分等)劃分成彼此不相交的子空間。,(,2,)采用允許空間重疊的索引法:,將索引空間劃分為多級(jí)的子空間,這些子空間允許重疊,但是一個(gè)空間實(shí)體完全包含在某一子空間中。,2024/12/13,7,空間數(shù)據(jù)結(jié)構(gòu)由于空間數(shù)據(jù)的獨(dú)特性質(zhì),有很多數(shù)據(jù)結(jié)構(gòu)專門被設(shè)計(jì),最小包圍矩形,通過完整包含一個(gè)空間實(shí)體的

10、最小包圍矩形(,MBR,:,Minimum Bounding Rectangle,)來表示該空間實(shí)體。例如,下圖顯示一湖泊的,MBR,:,,,,,,,如果用傳統(tǒng)坐標(biāo)系統(tǒng)來對(duì)這個(gè)湖定向,水平軸表示東西方向,垂直軸表示南北方向,那么就可以把這個(gè)湖放在一個(gè)矩形里(中間圖所示),還可以通過一系列更小的矩形來表現(xiàn)這個(gè)湖(右圖所示),另一種更簡單的方法是用一對(duì)不相鄰的頂點(diǎn)坐標(biāo)來表示一個(gè),MBR,,如用,{(x1,,,y1),,,(x2,,,y2)},來表示(中間圖所示)。,2024/12/13,8,最小包圍矩形通過完整包含一個(gè)空間實(shí)體的最小包圍矩形(MBR:,空間索引技術(shù),空間索引是指依據(jù)空間實(shí)體的位置和

11、形狀或空間實(shí)體之間的某種空間關(guān)系,按一定順序排列的一種數(shù)據(jù)結(jié)構(gòu),其中包含空間實(shí)體的概要信息。,空間索引的性能優(yōu)劣直接影響空間數(shù)據(jù)庫和地理信息系統(tǒng)的整體性能,也對(duì)空間數(shù)據(jù)挖掘的效率有影響。,幾種比較有代表性的空間數(shù)據(jù)索引結(jié)構(gòu)技術(shù):,網(wǎng)格文件,四叉樹,R-,樹,k-D,樹,2024/12/13,9,空間索引技術(shù)空間索引是指依據(jù)空間實(shí)體的位置和形狀或空間實(shí)體之,網(wǎng)格文件,根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間。k維數(shù)據(jù)空間的網(wǎng)格由k個(gè)一維數(shù)組表示,這些數(shù)組稱為刻度,將其保存在主存。刻度的每一邊界構(gòu)成k,-1,維的超平面。整個(gè)數(shù)據(jù)空間被所有的邊界劃分成許多k維的矩形子空間,這些矩形子空間稱為網(wǎng)格目錄,用k維

12、的數(shù)組表示,將其保存在硬盤上。網(wǎng)格目錄的每一網(wǎng)格單元包含一外存頁的地址,這一外存頁存儲(chǔ)了該網(wǎng)格單元內(nèi)的數(shù)據(jù)目標(biāo),稱為數(shù)據(jù)頁。一數(shù)據(jù)頁允許存儲(chǔ)多個(gè)相鄰網(wǎng)格單元的目標(biāo)。網(wǎng)格文件的查找簡單,查找效率較高,適用于點(diǎn)目標(biāo)的索引。,,,,,,2024/12/13,10,網(wǎng)格文件根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間。k維數(shù)據(jù)空間的網(wǎng)格,四叉樹,四叉樹通過把空間按等級(jí)分解成為區(qū)域(單元)來表示空間實(shí)體。四叉樹實(shí)際上每一節(jié)點(diǎn)有,4,個(gè)子樹,用于對(duì)空間點(diǎn)的表示與索引。,如二維空間的四叉樹,每個(gè)子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)矩形,用四種方位西北(NW),東北(NE),西南(SW),東南(SE)表示,空間區(qū)域被分為,n,層,四叉樹中的每

13、級(jí)對(duì)應(yīng)一個(gè)層次級(jí)別,層的數(shù)量,n,是依賴于所需要的精確度的。例如,,,,,2024/12/13,11,四叉樹四叉樹通過把空間按等級(jí)分解成為區(qū)域(單元)來表示空間實(shí),R-樹,R,-,樹是B,-,樹在多維空間的擴(kuò)展,其葉子節(jié)點(diǎn)包含多個(gè)形式為(,OI,,,MBR,)的實(shí)體,,OI,為空間目標(biāo)標(biāo)志,,MBR,為該目標(biāo)在k維空間中的最小包圍矩形。,非葉子節(jié)點(diǎn)包含多個(gè)形式為(,CP,,,MBR,)的實(shí)體。,CP,為指向子樹根節(jié)點(diǎn)的指針,,MBR,為包圍其子節(jié)點(diǎn)中所有,MBR,的最小包圍矩形。,R,-,樹必須滿足如下特性:,若根節(jié)點(diǎn)不是葉子節(jié)點(diǎn),則至少有兩棵子樹;,除根之外的所有中間節(jié)點(diǎn)至多有M棵子樹,至少

14、有m棵子樹;,每個(gè)葉子節(jié)點(diǎn)均包含m至M個(gè)數(shù)據(jù)項(xiàng);,所有的葉子節(jié)點(diǎn)都出現(xiàn)在同一層次;,所有節(jié)點(diǎn)都需要同樣的存儲(chǔ)空間(一個(gè)磁盤頁)。,,,2024/12/13,12,R-樹R-樹是B-樹在多維空間的擴(kuò)展2023/9/2012,k-D樹,k-D,樹被設(shè)計(jì)用來對(duì)多屬性的數(shù)據(jù)進(jìn)行索引,而不是必要的空間數(shù)據(jù)。,k-D,樹是二叉樹的一個(gè)變種,樹中的每一層用來索引一個(gè)屬性。樹中的每個(gè)結(jié)點(diǎn)表示這個(gè)空間基于一個(gè)分割點(diǎn)被分割成兩個(gè)子集。,和,R-,樹一樣,每個(gè)最低級(jí)別的區(qū)間只有一個(gè)實(shí)體。但是,分割不是用,MBR,來進(jìn)行的。它首先按照一個(gè)維分割,然后按照另一個(gè)維分割,直到每個(gè)區(qū)間只有一個(gè)實(shí)體。,2024/12/13,

15、13,k-D樹k-D樹被設(shè)計(jì)用來對(duì)多屬性的數(shù)據(jù)進(jìn)行索引,而不是必要,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,14,第八章 空間挖掘,空間數(shù)據(jù)庫的操作是數(shù)據(jù)挖掘的基礎(chǔ),假定,A,和,B,是二維空間中的兩個(gè)空間實(shí)體。每個(gè)實(shí)體由空間中的點(diǎn)的集合組成:,∈ A, ∈B,。兩個(gè)空間實(shí)體之間存在若干拓?fù)潢P(guān)系。這些關(guān)系基于兩個(gè)實(shí)體的位置:,分離(,Disjoi

16、nt,) :,A,與,B,分離,表示,B,中任何點(diǎn)都不在,A,中,反之亦然。,重疊,/,相交:,A,與,B,重疊或相交表示至少有一個(gè)點(diǎn)既在,A,里也在,B,里。,等價(jià):,A,與,B,這兩個(gè)實(shí)體的所有點(diǎn)都是共有的。,包含于:,A,包含于,B,,表示,A,的所有點(diǎn)都在,B,里。反之不一定。,覆蓋,/,包含:,A,覆蓋或包含,B,,當(dāng)且僅當(dāng),B,包含于,A,。,根據(jù)實(shí)體在空間中的位置,可以定義方向,通常采用的是傳統(tǒng)的地圖方向:像東、南、西、北等等。,空間謂詞有三種形式:,表示拓?fù)潢P(guān)系的謂詞,如相交、覆蓋等;,表示空間方向的謂詞,如東、西、左、右等;,表示距離的謂詞,如接近、遠(yuǎn)離等。,2024/12/

17、13,15,空間數(shù)據(jù)庫的操作是數(shù)據(jù)挖掘的基礎(chǔ)假定A 和B是二維空間中的兩,實(shí)體之間的距離的定義,常用的兩個(gè)空間實(shí)體之間的距離有:,最小值方法:,定義實(shí)體,A,和,B,的距離為,A,中的所有點(diǎn)與和,B,中的所有點(diǎn)之間的歐氏或曼哈頓距離中最小的,即,,最大值方法:,定義實(shí)體,A,和,B,的距離為,A,中的所有點(diǎn)與和,B,中的所有點(diǎn)之間的歐氏或曼哈頓距離中最大的,即,,平均值方法:,定義實(shí)體,A,和,B,的距離為,A,中的所有點(diǎn)與和,B,中的所有點(diǎn)之間的歐氏或曼哈頓距離的平均值,即,,中心方法:,定義實(shí)體,A,和,B,的距離為,A,中的中心點(diǎn)與和,B,中的中心點(diǎn)之間的歐氏或曼哈頓距離的平均值,即,,

18、,,,,,2024/12/13,16,實(shí)體之間的距離的定義常用的兩個(gè)空間實(shí)體之間的距離有:2023,空間統(tǒng)計(jì)學(xué),空間統(tǒng)計(jì)學(xué)(,Spatial Statistics,)是依靠有序的模型來描述無序事件,根據(jù)不確定性和有限的信息來分析、評(píng)價(jià)和預(yù)測(cè)空間數(shù)據(jù)。,基于足夠多的樣本,在統(tǒng)計(jì)空間實(shí)體的幾何特征量的最小值、最大值、均值、方差、眾數(shù)或直方圖的基礎(chǔ)上,可以得到空間實(shí)體特征的先驗(yàn)概率,進(jìn)而根據(jù)領(lǐng)域知識(shí)發(fā)現(xiàn)共性的幾何知識(shí)。,空間統(tǒng)計(jì)學(xué)具有較強(qiáng)的理論基礎(chǔ)和大量的成熟算法??臻g統(tǒng)計(jì)學(xué)是基本的數(shù)據(jù)挖掘技術(shù),特別是多元統(tǒng)計(jì)分析(如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等)。,統(tǒng)計(jì)方法是分析空間數(shù)

19、據(jù)的最常用的方法。統(tǒng)計(jì)方法能夠有效處理數(shù)值型數(shù)據(jù),其主要方法是基于統(tǒng)計(jì)不相關(guān)假設(shè)的。在空間數(shù)據(jù)庫中許多空間數(shù)據(jù)通常是相關(guān)的,即空間對(duì)象受其鄰近對(duì)象的影響,難以滿足這種假設(shè),這樣就會(huì)引起問題。它是空間統(tǒng)計(jì)學(xué)向著實(shí)用的挖掘技術(shù)發(fā)展的一個(gè)重要研究課題。,統(tǒng)計(jì)方法對(duì)非線性規(guī)劃不能很好建模,難以處理不完全或不確定性數(shù)據(jù),而且運(yùn)算的代價(jià)較高。它是空間統(tǒng)計(jì)學(xué)向著實(shí)用的挖掘技術(shù)發(fā)展的另一個(gè)研究課題。,2024/12/13,17,空間統(tǒng)計(jì)學(xué)空間統(tǒng)計(jì)學(xué)(Spatial Statistics),第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法

20、,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,18,第八章 空間挖掘,空間數(shù)據(jù)的蘊(yùn)含著豐富的概念,眾所周知,概念層次的使用顯示了數(shù)據(jù)間關(guān)系的層次。應(yīng)用空間數(shù)據(jù)特性,概念層次承認(rèn)了層級(jí)中不同層次規(guī)則和關(guān)系的發(fā)展。,從空間數(shù)據(jù)中挖掘所蘊(yùn)含的概念是空間挖掘的重要任務(wù)之一。,泛化與特化是概念歸納的主要手段,它對(duì)空間數(shù)據(jù)挖掘也是如此。,2024/12/13,19,空間數(shù)據(jù)的蘊(yùn)含著豐富的概念眾所周知,概念層次的使用顯示了數(shù)據(jù),逐步求精的分層技術(shù),逐步求精(,Progressive Refinement,)的分層是基于空間關(guān)系的

21、,因此空間關(guān)系可以應(yīng)用在一個(gè)更粗糙或者更精細(xì)的層次上。,由于空間應(yīng)用的數(shù)據(jù)量十分龐大,在尋求更多精確響應(yīng)之前要先做出一些近似響應(yīng)。,MBR,就是一個(gè)近似物體形狀的辦法。四叉樹、,R-,樹和其他大多數(shù)空間索引技術(shù)都采用了一種逐步求精的方式。,逐步求精可以看作是對(duì)處理問題無用的數(shù)據(jù)所做的過濾。,2024/12/13,20,逐步求精的分層技術(shù)逐步求精(Progressive Refi,泛化,數(shù)據(jù)庫中的數(shù)據(jù)和對(duì)象在原始的概念層次包含有詳細(xì)的信息,經(jīng)常需要將大量數(shù)據(jù)的集合進(jìn)行概括并以較高的概念層次展示,即對(duì)數(shù)據(jù)進(jìn)行泛化。,基于泛化的數(shù)據(jù)挖掘方法假定背景知識(shí)以概念層次的形式存在。概念層次可由專家提供,或借

22、助數(shù)據(jù)分析自動(dòng)生成。,空間數(shù)據(jù)庫中可以定義兩種類型的概念層次:,空間概念層:地理區(qū)域之間空間關(guān)系的概念層次。,非空間概念層:非空間屬性所聯(lián)系的非空間數(shù)據(jù)對(duì)應(yīng)的概念層次。,空間數(shù)據(jù)應(yīng)用的歸納可以被分為兩種子類:,空間數(shù)據(jù)支配泛化:空間數(shù)據(jù)支配泛化做的是基于空間位置的聚類(所有靠近的實(shí)體被分在一組中)。,非空間數(shù)據(jù)支配泛化:根據(jù)非空間屬性值的相似性做聚類。,2024/12/13,21,泛化數(shù)據(jù)庫中的數(shù)據(jù)和對(duì)象在原始的概念層次包含有詳細(xì)的信息,經(jīng),空間數(shù)據(jù)支配泛化算法,在空間數(shù)據(jù)支配泛化算法中,首先對(duì)空間數(shù)據(jù)進(jìn)行歸納:歸納進(jìn)行至區(qū)域的數(shù)量達(dá)到閾值為止。然后對(duì)相關(guān)的非空間屬性做相應(yīng)地更改。,例如,要知

23、道我國西北部地區(qū)的平均降雨量,可以在空間層次中尋找西北部所有省,再對(duì)非空間屬性(降雨量)進(jìn)行比較,或者歸納(平均降雨量多、中等、少量等)。,典型的空間數(shù)據(jù)支配泛化算法描述,:,算法,8-1,空間數(shù)據(jù)支配泛化算法,輸入:空間數(shù)據(jù)庫,D,;空間層次,H,;概念層次,C,;查詢,Q,。,輸出:所需一般特征的規(guī)則,r,。,(,1,),D’←,從數(shù)據(jù)庫,D,中按查詢,Q,獲得的數(shù)據(jù)集合;,(,2,)根據(jù),H,的結(jié)構(gòu),把數(shù)據(jù)合并到區(qū)域中,直到區(qū)域的數(shù)目達(dá)到所需的閾值,或者已經(jīng)到達(dá),H,中所要求的層次;,(,3,),FOR each,所找的區(qū)域,DO BEGIN,(,4,) 對(duì)非空間屬性執(zhí)行面向?qū)?/p>

24、性的歸納;,(,5,) 產(chǎn)生并輸出所找到的泛化規(guī)則;,(,6,),END.,2024/12/13,22,空間數(shù)據(jù)支配泛化算法在空間數(shù)據(jù)支配泛化算法中,首先對(duì)空間數(shù)據(jù),非空間數(shù)據(jù)支配泛化算法,算法首先對(duì)非空間屬性作面向?qū)傩缘臍w納,將其泛化至更高的概念層次。然后,將具有相同的泛化屬性值的相鄰區(qū)域合并在一起,可用鄰近方法忽略具有不同非空間描述的小區(qū)域。,查詢的結(jié)果生成包含少量區(qū)域的地圖,這些區(qū)域共享同一層次的非空間描述。,,2024/12/13,23,非空間數(shù)據(jù)支配泛化算法算法首先對(duì)非空間屬性作面向?qū)傩缘臍w納,,統(tǒng)計(jì)信息網(wǎng)格方法,STING,介紹,統(tǒng)計(jì)學(xué)信息網(wǎng)格方法(,STatistical

25、 INformation Grid-based method—STING,),使用了一種類似四叉樹的分層技術(shù),把空間區(qū)域分成矩形單元。對(duì)空間數(shù)據(jù)庫掃描一次,可以找到每個(gè)單元的統(tǒng)計(jì)參數(shù)(平均數(shù),變化性,分布類型)。網(wǎng)格結(jié)構(gòu)中的每個(gè)結(jié)點(diǎn)概括了該網(wǎng)格中所含內(nèi)部屬性的信息。通過獲取這些信息,很多數(shù)據(jù)挖掘請(qǐng)求(包括聚類)都可以通過檢驗(yàn)單元統(tǒng)計(jì)得到響應(yīng)。,STING,方法可以看作是一種層次聚類技術(shù)。層級(jí)的頂層的組成就是整體空間。最低層是代表每個(gè)最小單元的葉子結(jié)點(diǎn)。如果使用一個(gè)單元在下一層中擁有四個(gè)子單元(網(wǎng)格)的話,單元的分割與四叉樹中是一樣的。,2024/12/13,24,統(tǒng)計(jì)信息網(wǎng)格方法STING介紹

26、統(tǒng)計(jì)學(xué)信息網(wǎng)格方法(STati,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,25,第八章 空間挖掘,空間規(guī)則的主要類型,空間規(guī)則可以概括對(duì)空間實(shí)體的結(jié)構(gòu)及其之間關(guān)系的描述。在空間數(shù)據(jù)挖掘中有三種類型的規(guī)則:,空間特性規(guī)則:描述數(shù)據(jù),如北京市家庭平均年收入為,30000,元。,空間判別規(guī)則:描述不同種類數(shù)據(jù)間的差異,依靠它們能夠區(qū)分不同種類的特點(diǎn)。如北京市家庭平均年收入為,30000,元,而上海

27、的家庭平均年收入為,35000,元。,空間關(guān)聯(lián)規(guī)則:是兩個(gè)數(shù)據(jù)集合之間的關(guān)聯(lián)。如在北京市、住在國貿(mào)附近的家庭的平均收入為,50000,元。,所有這些規(guī)則都可以被看作是對(duì)空間類型的描述,而描述是一種為數(shù)據(jù)庫或者其中一些子集找到一個(gè)表示的方法。特性規(guī)則是一種最簡化的形式。,2024/12/13,26,空間規(guī)則的主要類型空間規(guī)則可以概括對(duì)空間實(shí)體的結(jié)構(gòu)及其之間關(guān),空間關(guān)聯(lián)規(guī)則,空間關(guān)聯(lián)規(guī)則是空間數(shù)據(jù)實(shí)體之間的關(guān)聯(lián),有:,非空間的先決條件和空間性的結(jié)果:如在北京、所有的重點(diǎn)學(xué)校都是位于老住宅區(qū),附近,。,空間性先決條件和非空間的結(jié)果:如在北京、房子在國貿(mào),附近,,就比較貴。,空間性先決條件和空間性結(jié)果

28、:如在北京、所有,市區(qū),的房子都在三環(huán),以內(nèi),。,空間關(guān)聯(lián)規(guī)則挖掘是傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘的延伸,常用最小支持度和最小可信度來作為基本的統(tǒng)計(jì)參數(shù),由于空間數(shù)據(jù)的特點(diǎn),往往是在多層概念上進(jìn)行歸納。,挖掘空間關(guān)聯(lián)規(guī)則的有效方法是自上而下、逐步加深的搜索技術(shù)。首先在高的概念層次進(jìn)行搜索,在較粗的精度級(jí)別查找頻繁發(fā)生的模式和在這些模式中較強(qiáng)的隱含關(guān)系;然后,對(duì)頻繁發(fā)生的模式加深搜索至較低的概念層次,這種處理持續(xù)到找不到頻繁發(fā)生的模式為止。,2024/12/13,27,空間關(guān)聯(lián)規(guī)則空間關(guān)聯(lián)規(guī)則是空間數(shù)據(jù)實(shí)體之間的關(guān)聯(lián),有:202,空間關(guān)聯(lián)規(guī)則基本步驟,典型的五步算法:,步驟,1,:通過給定的查詢抽取出相關(guān)的數(shù)

29、據(jù)。,步驟,2,:應(yīng)用一個(gè)粗的空間運(yùn)算方法,計(jì)算整個(gè)相關(guān)數(shù)據(jù)的集合。,步驟,3,:過濾出那些支持度小于最小支持度閾值的,1,階謂詞。,步驟,4,:應(yīng)用一個(gè)細(xì)化的空間計(jì)算方法,從所導(dǎo)出的粗的謂詞集合中計(jì)算謂詞。,步驟,5,:向低層深入,在多個(gè)概念層次上找到關(guān)聯(lián)規(guī)則的完整集合。,,,,,算法,8-4,,空間關(guān)聯(lián)規(guī)則算法,輸入:空間數(shù)據(jù)庫,D,;概念層次,C,;層次的最小支持度和可信度,s,和,α,;尋找感興趣實(shí)體的查詢,q,;感興趣的拓?fù)潢P(guān)系,p,。,輸出:空間關(guān)聯(lián)規(guī)則,R,。,(,1,),D’=q(D),;,(,2,)在,D’,中應(yīng)用粗糙謂詞,建造,CP,;,// CP,是由滿足,D’,中實(shí)體對(duì)

30、的粗糙謂詞組成的,(,3,)通過尋找滿足,s,的粗糙謂詞來找到頻繁粗糙謂詞,FCP,;,(,4,)從,FCP,中找到頻繁精確謂詞,FFP,;,(,5),尋找所有的頻繁精確謂詞得到,R,,然后歸納準(zhǔn)則,.,2024/12/13,28,空間關(guān)聯(lián)規(guī)則基本步驟典型的五步算法:算法8-4 空間關(guān)聯(lián)規(guī),第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,29,第八章 空間挖掘,空間分類方法,空間分類方法用來對(duì)空

31、間實(shí)體的集合進(jìn)行分類。給空間實(shí)體分類,可以通過非空間屬性或空間屬性或二者結(jié)合,并可利用概念層次來進(jìn)行取樣。對(duì)于樣本數(shù)據(jù)的訓(xùn)練可以通過改造傳統(tǒng)的分類算法來完成,例如,對(duì)ID3算法擴(kuò)展。,2024/12/13,30,空間分類方法空間分類方法用來對(duì)空間實(shí)體的集合進(jìn)行分類。給空間,空間決策樹,建造一個(gè)決策樹,有五個(gè)主要步驟:,根據(jù)已知的分類,從數(shù)據(jù),D,中找到例子,S,。,確定最佳謂詞,p,用來分類。一般首先在較粗的層次中尋找相關(guān)謂詞,然后再在較為細(xì)化的層次。,找到最佳的緩沖區(qū)大小和形狀。對(duì)于取樣中的每個(gè)實(shí)體,它周圍的區(qū)域被稱為緩沖區(qū)。目標(biāo)是選擇一個(gè)能產(chǎn)生對(duì)測(cè)試集中的類型進(jìn)行最不同的緩沖區(qū)。,使用,p

32、,和,C,,對(duì)每個(gè)緩沖區(qū)歸納謂詞。,使用泛化的謂詞和,ID3,建造二叉樹,T,。,算法,8-5,,空間決策樹算法,輸入:空間數(shù)據(jù)庫,D,;概念層次,C,;預(yù)定的類別。,輸出:二叉決策樹,T,。,(,1,)根據(jù)預(yù)定的類別,從數(shù)據(jù),D,中找到例子,S,;,(,2,)確定最佳謂詞,p,用來分類;,(,3,)找到最佳的緩沖區(qū)大小和形狀;,(,4,)使用,p,和,C,,對(duì)每個(gè)緩沖區(qū)歸納謂詞;,(,5,)使用泛化的謂詞和,ID3,建造二叉樹,T.,2024/12/13,31,空間決策樹建造一個(gè)決策樹,有五個(gè)主要步驟:算法8-5 空間,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘

33、基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,32,第八章 空間挖掘,空間聚類,空間聚類算法必須在大型多維數(shù)據(jù)庫上有效工作,而且應(yīng)該能夠探測(cè)到不同形狀的聚類。因此,難度和挑戰(zhàn)性要比傳統(tǒng)數(shù)據(jù)要大。,空間聚類找到的聚類不應(yīng)該依賴于檢驗(yàn)空間中的點(diǎn)的順序,而且聚類也不應(yīng)該受不相干的點(diǎn)影響。,傳統(tǒng)的聚類算法可以通過改造來實(shí)現(xiàn)空間數(shù)據(jù)聚類。,2024/12/13,33,空間聚類空間聚類算法必須在大型多維數(shù)據(jù)庫上有效工作,而且應(yīng)該,基于隨機(jī)搜索的聚類方法CLARANS擴(kuò)展,CL

34、ARANS,算法可以表示為查找一個(gè)圖,圖中的每個(gè)節(jié)點(diǎn)都是潛在的解決方案。在替換一個(gè)中心點(diǎn)后獲得的聚類稱為當(dāng)前聚類的鄰居。隨意測(cè)試的鄰居的數(shù)目由參數(shù),maxneighbor,限制。如果找到一個(gè)更好的鄰居,將中心點(diǎn)移至鄰居節(jié)點(diǎn),重新開始上述過程,否則在當(dāng)前的聚類中生成一個(gè)局部最優(yōu)。找到一個(gè)局部最優(yōu)后,再任意選擇一個(gè)新的節(jié)點(diǎn)重新尋找新的局部最優(yōu)。局部最優(yōu)的數(shù)目被參數(shù),numlocal,限制。,CLARANS,并不搜索遍所有的求解空間,也不限制在任何具體的采樣中。,CLARANS,每次迭代的計(jì)算復(fù)雜度與對(duì)象的數(shù)量基本呈線性關(guān)系。,基于,CLARANS,的空間數(shù)據(jù)聚類算法有兩種:空間支配算法,SD,(,

35、CLARANS,)和非空間支配算法,NSD,(,CLARANS,)。,2024/12/13,34,基于隨機(jī)搜索的聚類方法CLARANS擴(kuò)展 CLARANS算法,DBCLASD算法,一種大型空間數(shù)據(jù)庫基于距離分布的聚類算法,叫做,DBCLASD,(,Distribution Based Clustering of Large Spatial Databases,),它是,DBSCAN,的擴(kuò)展。假定聚類中的項(xiàng)目是均勻分布的,算法嘗試確定滿足最近鄰居距離的分布。只要最近的鄰居距離滿足均一分布的假設(shè),那么這個(gè)元素就被加入聚類。,算法,8-7,DBCLASD,算法,輸入:要被聚類的空間實(shí)體,D,;輸出:

36、聚類集合,K,。,(,1,),K←0,;,//,初始化,沒有聚類,(,2,),c←Ф,;,//,初始化候選集合為空,(,3,),FOR each point p in D DO BEGIN,(,4,),IF p is not in a cluster THEN BEGIN,(,5,),,創(chuàng)建一個(gè)新的聚類,C,,并把,p,加入,C,;,(,6,),,把,p,臨近的點(diǎn)加入,C,;,(,7,),END,(,8,),FOR each point q in C DO BEGIN,(,9,),,把,C,中沒有處理過的點(diǎn),q,的鄰居點(diǎn)加入,C,;,(,10,),K←K∪{C},(,11,),END.,20

37、24/12/13,35,DBCLASD算法一種大型空間數(shù)據(jù)庫基于距離分布的聚類算法,,BANG,算法,BANG,方法使用了一種類似,k-D,樹的網(wǎng)格結(jié)構(gòu)。這個(gè)結(jié)構(gòu)為適應(yīng)屬性的分布而做了一定調(diào)整,使密集的區(qū)域具有大量的更小的網(wǎng)格,而不夠密集的區(qū)域只有少量的更大的網(wǎng)格。接著按照網(wǎng)格(塊)的密度排序,也就是按照區(qū)域分割的網(wǎng)格里的項(xiàng)目數(shù)量。,根據(jù)期望的聚類數(shù)量,那些密度最大的網(wǎng)格被選為聚類的中心。對(duì)于每個(gè)選定的網(wǎng)格,只要它們的密度小于或者等于當(dāng)前這個(gè)聚類的中心,就把這個(gè)臨近的網(wǎng)格加入。,2024/12/13,36,BANG算法BANG方法使用了一種類似k-D樹的網(wǎng)格結(jié)構(gòu)。這,小波聚類,用小波聚類歸納空

38、間聚類的方法是把數(shù)據(jù)看作像,STING,那樣的信號(hào),小波聚類使用的是網(wǎng)格。歸納聚類的時(shí)間復(fù)雜度是,O(n),,并且不受外界影響。,與一些方法不同,小波聚類可以找到任意形狀的聚類,而且不需要知道期望的聚類個(gè)數(shù)。,n,維空間的空間實(shí)體集合可看作是一個(gè)信號(hào)。聚類的邊界與高頻相應(yīng)。聚類本身是低頻率高振幅的。可以使用信號(hào)處理技術(shù)尋找空間中低頻的部分。,可以使用小波變換來尋找聚類。小波變換是用來找出信號(hào)中的頻譜的。一個(gè)空間實(shí)體的小波變換分解維空間圖像的層次。它們可以用來把一個(gè)圖像縮放為不同的大小。,2024/12/13,37,小波聚類用小波聚類歸納空間聚類的方法是把數(shù)據(jù)看作像STING,使用近似值來確定聚

39、類的特性,一旦找到了空間聚類,可以使用近似值來確定這些聚類的特性:通過確定聚類附近的特征實(shí)現(xiàn)的。例如,一個(gè)聚類“靠近學(xué)?!?。,通常更多地用復(fù)雜的近似多邊形表示,而非指用簡單的,MBR,。,聚合鄰近,定義為衡量一個(gè)聚類(或者元素群)與一個(gè)特征(或者空間中某個(gè)實(shí)體)接近的程度。聚合鄰近距離可以由聚類中所有點(diǎn)的距離總和來度量。,CRH,算法是典型的確定聚合鄰近關(guān)系方法。它使用三種幾何形狀來界定一個(gè)聚類:,內(nèi)接矩形,R,:包含了一系列點(diǎn)的,MBR,。矩形邊緣與坐標(biāo)軸平行。,外接圓,C,:包圍一系列點(diǎn)的圓周;以內(nèi)接矩形的對(duì)角線為直徑。,凸多邊形,H,:包含點(diǎn)的集合的最小邊界。,,CRH,首先使用一個(gè)外接

40、圓來接近給定的類;,其次使用內(nèi)接矩形來表示特征,并根據(jù)特征與聚類的接近程度來進(jìn)行排序;,最后使用凸多邊形來評(píng)估前面所有最接近的特征。,2024/12/13,38,使用近似值來確定聚類的特性一旦找到了空間聚類,可以使用近似值,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,39,第八章 空間挖掘,空間挖掘的其他問題,1,.,空間在線分析挖掘,空間在線分析挖掘(,SOLAM,:,Spatial Onl

41、ine Analytical Mining,)建立在多維視圖基礎(chǔ)之上,是基于網(wǎng)絡(luò)的驗(yàn)證型空間數(shù)據(jù)挖掘和分析工具。,空間在線分析挖掘通過數(shù)據(jù)分析與報(bào)表模塊的查詢和分析工具(,OLAP,、決策分析、數(shù)據(jù)挖掘)完成對(duì)信息和知識(shí)的提取,以滿足決策的需要。它建立在客戶,/,服務(wù)器的結(jié)構(gòu)之上,由用戶驅(qū)動(dòng),支持多維數(shù)據(jù)分析,在用戶的指導(dǎo)下驗(yàn)證設(shè)定的假設(shè)。,美國,BusinessObjects,公司的,BusinessObjects,(,BO,)就是采用,Data,W,arehouse+OLAP+DataMining,方案推出的第一個(gè)集多數(shù)據(jù)源查詢、任意報(bào)表生成和,OLAP,及數(shù)據(jù)挖掘技術(shù)為一體的決策支持工具

42、軟件包。,2024/12/13,40,空間挖掘的其他問題1.空間在線分析挖掘2023/9/2040,空間挖掘的其他問題,2,.挖掘圖像數(shù)據(jù)庫的方法,,圖像數(shù)據(jù)庫是一類特殊的空間數(shù)據(jù)庫,其數(shù)據(jù)幾乎全部是圖像或圖片。圖像數(shù)據(jù)庫用于遙感、醫(yī)學(xué)圖像等應(yīng)用,通常以柵格形式表示,柵格代表一個(gè)或多個(gè)光譜范圍的圖像密度。,,圖像數(shù)據(jù)庫的挖掘可以看成是空間數(shù)據(jù)挖掘的一部分,其主要問題在于如何區(qū)分圖像。以下列出對(duì)這方面問題的一些研究。,Magellan,研究,恒星分類,POSS-II,(,Second Palomar Observatory Sky Survey,),基于內(nèi)容的時(shí)空查詢,CONQUEST,,,20

43、24/12/13,41,空間挖掘的其他問題2.挖掘圖像數(shù)據(jù)庫的方法2023/9/20,空間挖掘的其他問題,3,.基于,Rough,集方法,Rough,集理論被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類分析和知識(shí)獲取中。,Rough,集理論為空間數(shù)據(jù)的屬性分析和知識(shí)發(fā)現(xiàn)開辟了一條新途徑,可用于空間數(shù)據(jù)庫屬性表的一致性分析、屬性的重要性、屬性依賴、屬性表簡化、最小決策和分類算法生成等。,Rough,集方法與其他知識(shí)發(fā)現(xiàn)方法相結(jié)合,可以在數(shù)據(jù)庫中數(shù)據(jù)不確定情況下獲取多種知識(shí)。,4,.基于云理論挖掘方法,云理論是由李德毅等提出的一種用于處理不確定性的新理論,由云模型、不確定性推理和云變換三大支

44、柱構(gòu)成。云理論將模糊性和隨機(jī)性結(jié)合起來,解決了作為模糊集理論基石的隸屬函數(shù)概念的固有缺陷,為,KDD,中定量與定性相結(jié)合的處理方法奠定了基礎(chǔ),可以用于處理,GIS,中融隨機(jī)性和模糊性為一體的屬性不確定性。,2024/12/13,42,空間挖掘的其他問題3.基于Rough集方法2023/9/20,空間挖掘的其他問題,5,.探測(cè)性的數(shù)據(jù)分析(,EDA,),探測(cè)性的數(shù)據(jù)分析,簡稱,EDA,,采用動(dòng)態(tài)統(tǒng)計(jì)圖形和動(dòng)態(tài)鏈接窗口技術(shù)將數(shù)據(jù)及其統(tǒng)計(jì)特征顯示出來,可發(fā)現(xiàn)數(shù)據(jù)中非直觀的數(shù)據(jù)特征及異常數(shù)據(jù)。,EDA,技術(shù)在知識(shí)發(fā)現(xiàn)中用于選取感興趣的數(shù)據(jù)子集,即數(shù)據(jù)聚焦,并可初步發(fā)現(xiàn)隱含在數(shù)據(jù)中的某些特征和規(guī)律。,6

45、,.可視化,現(xiàn)代的數(shù)據(jù)可視化(,Data Visualization,)技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺及人機(jī)交互技術(shù)等多個(gè)領(lǐng)域。數(shù)據(jù)可視化概念首先來自科學(xué)計(jì)算可視化。,2024/12/13,43,空間挖掘的其他問題5.探測(cè)性的數(shù)據(jù)分析(EDA)2023/9,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研

46、究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,44,第八章 空間挖掘,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,,加拿大,Simon Fraser,大學(xué)開發(fā)的空間數(shù)據(jù)挖掘系統(tǒng)原型,GeoMiner,很有代表性。該系統(tǒng)包含有三大模塊:空間數(shù)據(jù)立方體構(gòu)建模塊,空間聯(lián)機(jī)分析處理(,OLAP,)模塊和空間數(shù)據(jù)挖掘模塊,采用的空間數(shù)據(jù)挖掘語言是,GMQL,。目前已能挖掘三種類型的規(guī)則:特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則。,GeoMiner,的體系結(jié)構(gòu)如圖,8-12,所示,包含四個(gè)部分:,圖形用戶界面,用于進(jìn)行交互式地挖掘并顯示挖掘結(jié)果;,發(fā)現(xiàn)模塊集合,含有上述三個(gè)已實(shí)現(xiàn)的知識(shí)發(fā)現(xiàn)模塊以及四個(gè)計(jì)劃實(shí)現(xiàn)的模塊(分別用實(shí)線框和虛

47、線框表示);,空間數(shù)據(jù)庫服務(wù)器,包括,MapInfo,、,ESRI/Oracle SDE,、,Informix-Illustra,以及其他空間數(shù)據(jù)庫引擎;,存儲(chǔ)非空間數(shù)據(jù)、空間數(shù)據(jù)和概念層次的數(shù)據(jù)庫和知識(shí)庫。,2024/12/13,45,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 加拿大Simon Frase,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,,空間數(shù)據(jù),,圖形用戶界面,GeoMiner,:知識(shí)發(fā)現(xiàn)模塊,空間數(shù)據(jù)庫服務(wù)器和數(shù)據(jù)立方體,非空間數(shù)據(jù),概念層次,,空間特征規(guī)則發(fā)現(xiàn)模塊,空間關(guān)聯(lián)規(guī)則發(fā)現(xiàn)模塊,空間預(yù)測(cè)模塊,空間模式分析模塊,空間比較規(guī)則發(fā)現(xiàn)模塊,空間分類規(guī)則發(fā)現(xiàn)模塊,空間聚類分析模塊,未來的空間發(fā)現(xiàn)模塊,

48、2024/12/13,46,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 空間數(shù)據(jù)圖形用戶界面GeoM,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,到目前為止,尚沒有對(duì)空間數(shù)據(jù)挖掘查詢語言,SDMQL,(,Spatial Data Mining Query Language,)的定義。,Han,等人為了挖掘地理空間數(shù)據(jù)庫設(shè)計(jì)了一種地理數(shù)據(jù)挖掘查詢語言,GMQL,(,Geo-Mining Query Language,),它是對(duì)空間,SQL,的擴(kuò)展,并成功地應(yīng)用于空間數(shù)據(jù)挖掘系統(tǒng)原型,GeoMiner,中。,GMQL,可作為制定,SDMQL,的基礎(chǔ),以進(jìn)一步界定,SDMQL,語言的基本原語。,SDMQL,的設(shè)計(jì)指導(dǎo)原則主要有:

49、,在空間數(shù)據(jù)挖掘請(qǐng)求中應(yīng)說明用于挖掘的相關(guān)數(shù)據(jù)集。,在空間數(shù)據(jù)挖掘請(qǐng)求中應(yīng)說明想要挖掘的知識(shí)的種類。,挖掘過程中應(yīng)該可能運(yùn)用相關(guān)的背景知識(shí)。,挖掘結(jié)果應(yīng)該能用較概括的或多層次概念的術(shù)語來表述。,應(yīng)能夠說明各種各樣的閾值,使得可以靈活地過濾掉那些不是很令人感興趣的知識(shí)。,應(yīng)采用類似,SQL,的語法以適應(yīng)在高級(jí)語言的水平上進(jìn)行數(shù)據(jù)挖掘并與關(guān)系查詢語言,SQL,保持自然的融合。,2024/12/13,47,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹到目前為止,尚沒有對(duì)空間數(shù)據(jù)挖掘查詢,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算

50、法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,48,第八章 空間挖掘,空間數(shù)據(jù)挖掘的研究現(xiàn)狀,空間數(shù)據(jù)挖掘的研究比一般的關(guān)系型數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫的研究要晚,但近幾年己經(jīng)引起廣泛的興趣。目前國內(nèi)外都己經(jīng)開展了地球空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)方面的研究。,加拿大西蒙弗雷澤大學(xué)、德國慕尼黑大學(xué)、芬蘭赫爾辛基大學(xué)以及美國、澳大利亞等國家的許多大學(xué)和研究所,都有空間數(shù)據(jù)挖掘的成果報(bào)道。,,目前,在空間數(shù)據(jù)挖掘系統(tǒng)的開發(fā)方面,國際上有代表性的通用,SDM,系統(tǒng)有:,GeoMiner,,,Descartes,和,ArcView GIS,的,S-P

51、LUS,接口。,在國內(nèi),目前已經(jīng)開展空間數(shù)據(jù)挖掘的單位主要有:北京大學(xué)、武漢大學(xué)、中科院軟件所、中科院地理所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室、中科院遙感所、中國測(cè)繪科學(xué)研究院等。,2024/12/13,49,空間數(shù)據(jù)挖掘的研究現(xiàn)狀 空間數(shù)據(jù)挖掘的研究比一般的關(guān)系型數(shù)據(jù),空間數(shù)據(jù)挖掘的研究與發(fā)展方向,空間數(shù)據(jù)挖掘是一個(gè)非常年輕而富有前景的領(lǐng)域,有很多研究問題需要深入探討,這也是該領(lǐng)域的研究與發(fā)展方向。,,1,.在面向?qū)ο蟮目臻g數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘,2,.進(jìn)行不確定性挖掘,3,.多邊形聚類技術(shù),4,.模糊空間關(guān)聯(lián)規(guī)則的挖掘,5,.挖掘空間數(shù)據(jù)的偏離和演變規(guī)則,6,.多維規(guī)則可視化,7,.多技術(shù)結(jié)合

52、,8,.高效的分類算法,9,.空間數(shù)據(jù)挖掘查詢語言,10,.帶空間誤差的數(shù)據(jù)挖掘,11,.遙感影像的挖掘,12,.智能,GIS,方法,13,.并行數(shù)據(jù)挖掘,14,.其他,,2024/12/13,50,空間數(shù)據(jù)挖掘的研究與發(fā)展方向 空間數(shù)據(jù)挖掘是一個(gè)非常年輕而富,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,51,第八章 空間挖掘,空間數(shù)據(jù)挖掘與相關(guān)學(xué)科的關(guān)系,空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫,空間數(shù)據(jù)庫

53、存儲(chǔ)了大量與空間有關(guān)的數(shù)據(jù),例如數(shù)字地圖、預(yù)處理后的遙感或醫(yī)學(xué)圖像數(shù)據(jù)等等,空間數(shù)據(jù)庫有許多與關(guān)系型數(shù)據(jù)庫所不同的顯著特征。,,空間數(shù)據(jù)挖掘與空間數(shù)據(jù)倉庫,空間數(shù)據(jù)倉庫(,Spatial Data Warehouse,,,SDW,)是近幾年在數(shù)據(jù)倉庫基礎(chǔ)上提出的一個(gè)新的概念和新的技術(shù),空間數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化的并且非易失性的空間和非空間數(shù)據(jù)的集合,用于支持空間數(shù)據(jù)挖掘和與空間數(shù)據(jù)有關(guān)的決策過程。,空間數(shù)據(jù)挖掘與空間聯(lián)機(jī)分析處理,空間聯(lián)機(jī)分析處理(,Spatial Online Analytical Processing,,,SOLAP,)是針對(duì)特定問題的聯(lián)機(jī)空間數(shù)據(jù)訪問

54、和分析,適合以空間數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。,,空間數(shù)據(jù)挖掘與地理信息系統(tǒng),數(shù)字地球,,,2024/12/13,52,空間數(shù)據(jù)挖掘與相關(guān)學(xué)科的關(guān)系 空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫202,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,53,第八章 空間挖掘,http://www.cs.sfu.ca/~han,Thank you !!!,2024/12/13,54,http://www.cs.sfu.ca/~hanThank,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!