《廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件》由會員分享,可在線閱讀,更多相關(guān)《廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件(68頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、,,,,,,,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,*,*,第五章,數(shù)據(jù)的排序及有向聚類分析,,§5.1,引言,,,§5.2,事務(wù)項(xiàng)的排序標(biāo)準(zhǔn),,,§5.3,屬相項(xiàng)的排序標(biāo)準(zhǔn),,,§5.4,數(shù)據(jù)的衍生,,,§5.5,有序近鄰聚類分析,,,§5.6,有序平均秩效應(yīng)聚類分析,11/28/2024,§5.1,引 言,,數(shù)據(jù)排序在數(shù)據(jù)挖掘中顯得尤為重要,但往往被人們所忽視,.,因?yàn)樵跀?shù)據(jù)量較少時(shí),對于排序看起來不是什么問題,也無需專門去研究和討論,.,然而,對于海量數(shù)據(jù)的分析,排序問題就不是那么簡單了,.,可以想象利用,Web,的有關(guān)資料,
2、我們?nèi)绾螌⒕W(wǎng)絡(luò)廣告、街頭廣告、報(bào)刊廣告等對電視廣告的影響程度排序呢?又如,在大學(xué)生成長和發(fā)展過程,因素,q,1,,q,2,,...,q,25,所起的作用大小又是如何呢?,這些問題的解決不僅為進(jìn)一步的數(shù)據(jù)挖掘提供適合的數(shù)據(jù)形式,而且為數(shù)據(jù)分析過程中的算法改進(jìn)、提高精度、增強(qiáng)有效性奠定了理論基礎(chǔ),.,11/28/2024,,數(shù)據(jù)排序必須要有,研究對象,,即我們是對屬性項(xiàng),(,變量,),進(jìn)行排序,還是對事務(wù)項(xiàng),(,樣本,),進(jìn)行排序,這一點(diǎn)必須要明確,.,研究對象要根據(jù)問題的研究目的和內(nèi)容來確定,.,,,,在明確了排序的對象后,進(jìn)行排序前還要確定一個(gè),排序標(biāo)準(zhǔn),,標(biāo)準(zhǔn)不一樣,排序的結(jié)果不一樣,.,排
3、序標(biāo)準(zhǔn)的確定不是那么輕而易舉的,如果標(biāo)準(zhǔn)確定不好,不僅反映不出實(shí)際問題,而且還有可能誤導(dǎo)人們對問題的認(rèn)識,.,因此,排序標(biāo)準(zhǔn)的確定既要建立在一定的理論基礎(chǔ)上,而且又要有一定的實(shí)際背景,.,這方面的內(nèi)容我們將在后面詳細(xì)探討,.,11/28/2024,,隨著對數(shù)據(jù)的進(jìn)一步考慮,我們將會發(fā)現(xiàn),,排序后數(shù)據(jù)之間的“距離”,(包括相似的概念,以后不再強(qiáng)調(diào)),并不相等,,也就是排序后數(shù)據(jù)的稀疏程度不均勻.由于數(shù)據(jù)量過大,我們自然要關(guān)心的是對一個(gè)數(shù)據(jù)集合進(jìn)行分析,,這樣就提出了如何對排序資料進(jìn)行聚類分析.,11/28/2024,,我們知道聚類分析源于許多研究領(lǐng)域,包括數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、生物學(xué)以及機(jī)器學(xué)習(xí),,
4、但對有序樣品的聚類分析的理論內(nèi)容并不多,,(,胡國定,張潤楚,(1989), 286-319),,而且所研究的內(nèi)容立足點(diǎn)是,已知變量,(,或樣品,),具有一定的順序,其順序在聚類中是不能打亂的,即只能按其順序分成若干類,.,例如,欲了解兒童的生長發(fā)育規(guī)律,對所獲得的兒童的體重按發(fā)育階段進(jìn)行分類,這里很清楚,只能按年齡由小到大分成若干個(gè)發(fā)育階段,如果按不同的年齡,(,非順序性,),將兒童的體重進(jìn)行聚類分析,這樣的結(jié)果不適合生長發(fā)育規(guī)律的要求,.,這類有序變量,(,或樣品,),是客觀現(xiàn)實(shí)中存在的,這種有序我們稱為,客觀有序,.,,11/28/2024,,對于非有序數(shù)據(jù)進(jìn)行聚類分析,這在數(shù)據(jù)挖掘中已
5、經(jīng)成為一個(gè)非?;钴S的研究課題 (Trespv,V. (2001),Van,,Hulle,M.M.(2000),Gardner,M.,,,,Lalmas,M.and Ruthven,I.(2001),Friedman,J.H.,,(1997)).但是根據(jù)我們研究的內(nèi)容和聚類的目的,將數(shù)據(jù)排序后,再進(jìn)行聚類分析,這樣不僅會對聚類的結(jié)果有更細(xì)致深刻的認(rèn)識,還會大大提高聚類的運(yùn)算速度.,在這里我們所涉及到的有序數(shù)據(jù)是根據(jù)某一研究的目的排列而成的,這種有序我們稱為目的有序.,11/28/2024,§5.2.1,以信息源為標(biāo)準(zhǔn)的排序,§5.2,事務(wù)項(xiàng)(樣品)的排序標(biāo)準(zhǔn),11/28/2024,11/28/2
6、024,§5.2.2,以綜合屬性項(xiàng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.2.3,移動(dòng)通訊用戶綜合費(fèi)用排序,,我們已經(jīng)對某地區(qū)中國移動(dòng)通訊用戶數(shù)據(jù)庫進(jìn)行了壓縮分析,得到了關(guān)于屬性子集,A={,本地話費(fèi)、長途話費(fèi)、漫游費(fèi),},的壓縮信息系統(tǒng),.,現(xiàn)在將利用上面的方法對移動(dòng)通訊用戶的消費(fèi)情況進(jìn)行綜合評價(jià),以,2001,年,10,月的壓縮信息系統(tǒng)為例分析,.,計(jì)算出綜合評價(jià)指標(biāo),Z,,將其可視化得到,2001,年,10,月移動(dòng)通訊用戶消費(fèi)屬性綜合評價(jià)分布,(,圖,1-b),,比較接近用戶消費(fèi)概率分布,,(,圖,
7、1-a),,綜合排序以后的分布見圖,2,,由于圖,2,反映出排序以后前,20,位的綜合指標(biāo)較大,將其事務(wù)項(xiàng)列出見下表,.,11/28/2024,圖,1-a,圖,1-b,移動(dòng)通訊用戶消費(fèi)概率分布與綜合屬性評價(jià)分布比較,11/28/2024,圖,2,移動(dòng)通訊用戶消費(fèi)綜合屬性評價(jià)排序,11/28/2024,11/28/2024,,通過分析我們可以挖掘出以下知識:,,,,,i).,以此排序結(jié)果看,該地區(qū)移動(dòng)手機(jī)用戶平均消費(fèi)最大的綜合評價(jià)指標(biāo)值是,0.9865,,即本地話費(fèi)在,3,檔上,(100-300,元,),,長途話費(fèi)和漫游費(fèi)的消費(fèi)在,2,檔上,(0-100,元,).,從總體上,該地區(qū)的移動(dòng)手機(jī)用戶
8、的本地話費(fèi)消費(fèi)群體集中在,3,檔,長途話費(fèi)和漫游費(fèi)的消費(fèi)群體集中在,2,檔上,處于中低檔消費(fèi)水平,.,,ii).,這里需要特別說明的是,所有的,1,檔消費(fèi)群體綜合評價(jià)指標(biāo)值為,0.0513,,排在第,13,位,這些消費(fèi)者雖然擁有手機(jī)但沒有消費(fèi),它直接影響著該地區(qū)移動(dòng)通訊的業(yè)務(wù)總收入量,這部分消費(fèi)者具有潛在流失傾向,公司應(yīng)該針對此情況采取措施,.,我們對以后的幾個(gè)月進(jìn)行分析,發(fā)現(xiàn)這種情形越發(fā)嚴(yán)重,.,這種異?,F(xiàn)象的發(fā)現(xiàn),充分體現(xiàn)了數(shù)據(jù)挖掘的特點(diǎn),.,11/28/2024,§5.3,屬性項(xiàng),(,變量,),的排序標(biāo)準(zhǔn),11/28/2024,§5.3.1,以平均水平為標(biāo)準(zhǔn)的排序,11/28/2024,
9、11/28/2024,11/28/2024,§5.3.2,以秩效應(yīng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.4,數(shù)據(jù)的衍生,§5.4.1,數(shù)據(jù)矩陣,,,聚類分析是一種重要的人類行為,通過聚類人們能夠識別密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的相互關(guān)系,.,聚類分析作為數(shù)據(jù)挖掘的一種功能,不僅能獨(dú)立地來獲得數(shù)據(jù)分布情況,觀察每個(gè)族的特點(diǎn),集中對待定的某些族作出進(jìn)一步的分析,而且還是進(jìn)行其它數(shù)據(jù)分析,(,如回歸、分類、網(wǎng)絡(luò)分析等,),的預(yù)處理過程,(Owen, A. B. (1999))
10、.,可以說,聚類分析不論在理論上,還是在應(yīng)用上正在蓬勃發(fā)展,有貢獻(xiàn)的研究領(lǐng)域包括數(shù)據(jù)挖掘,(,Trespv,, V. (2001)),、統(tǒng)計(jì)學(xué),(Van,Der,Ark, L. A., Van,Der,,Heijden,, P. G. M. and,Sikkel,, D. (1999)),、機(jī)器學(xué)習(xí),(Krieger, A. M. and Green, P. E. (1999)),、空間數(shù)據(jù)庫技術(shù),(Nelson, D. E. (2001)),、生物學(xué),(Segal, E. and,Koller,, D.),以及市場營銷,(,Yun,, C. H.,,Chuang,, K. T. and
11、Chen, M. S.),等,.,由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析的研究工作已經(jīng)涉及到大型數(shù)據(jù)庫的有效和實(shí)際的聚類分析尋找適當(dāng)?shù)姆椒ㄉ?.,那么,聚類分析所針對的數(shù)據(jù)類型如何呢?這一問題的明確,將會為聚類分析的方法研究澄清思路,.,11/28/2024,11/28/2024,§5.4.2,相異度矩陣,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5,有序近鄰聚類分析,§5.5.1,相似指標(biāo)的確定及聚類分析,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5.2 Fisher,最優(yōu)求解法與有序近
12、鄰方法的比較,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.6,有序平均秩效應(yīng)聚類分析,§5.6.1,平均秩效應(yīng)原則及聚類方法,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,,11/28/2024,11/28/2024,11/28/2024,,通過上面的計(jì)算結(jié)果我們可以挖掘出一下知識:,,
13、,,i).,第一類與第二類所包含水平的影響程度明顯地高于平均影響程度,而且第一類遠(yuǎn)遠(yuǎn)高于其他類對大學(xué)生成長與發(fā)展的影響,,說明個(gè)人對未來的發(fā)展動(dòng)機(jī)與家庭狀況對自己的成長與發(fā)展影響最大,.,第二類僅次于平均影響程度,說明大學(xué)生對專業(yè)知識的加強(qiáng)在自己的成長與發(fā)展中起著相當(dāng)重要的作用,.,,ii).,第三類包括社會政治環(huán)境、報(bào)刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況,.,由于報(bào)刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況均與社會環(huán)境的好壞有著密切的關(guān)系,,我們可以將這一類概括為在現(xiàn)社會大環(huán)境因素,它對大學(xué)生成長和發(fā)展的影響與平均影響程度沒有顯著性的差異,.,,iii).,第四類、第五類與第六類所包含水平
14、的影響程度均低于平均影響程度,.,11/28/2024,,第四類所包括的內(nèi)容從兩個(gè)方面影響大學(xué)生的成長與發(fā)展,即一是對物質(zhì)方面的追求,二是老師言行及典型人物的影響,例如科學(xué)家和英雄人物,.,,,第五類包括校園文化活動(dòng)、學(xué)校管理制度和學(xué)校周圍環(huán)境,.,說明學(xué)校的各種狀況對大學(xué)生成長與發(fā)展有一定的影響,.,,,第六類所包括的水平有一般性的學(xué)術(shù)講座、學(xué)校政治思想工作、同班同學(xué)言行舉止、錄像或電影內(nèi)容、老鄉(xiāng)的各種行為,這一類涉及的內(nèi)容比較廣,稱其為綜合水平,.,其中老鄉(xiāng)的各種行為影響程度最小,而且它與其它水平影響程度的差異比較大,說明老鄉(xiāng)的各種行為在大學(xué)生成長與發(fā)展中作用極小,.,在這里需要強(qiáng)調(diào)的是,
15、一般性的學(xué)術(shù)講座和學(xué)校政治思想工作的影響程度略低于第五類,表明它們對大學(xué)生成長與發(fā)展有影響,但這種影響遠(yuǎn)遠(yuǎn)低于平均影響程度,.,這就要求學(xué)校有針對性的開展一般性的學(xué)術(shù)活動(dòng)和政治思想工作,.,11/28/2024,,最后需要說明的是,平均秩效應(yīng)聚類分析是建立在秩分析基礎(chǔ)之上的,類與類之間可以比較影響程度的大小,從中可以尋找出主要因素類和次要因素類,為解決實(shí)際問題提供較為可靠的依據(jù),.,為了特別地突出主次之分,在平均秩效應(yīng)聚類過程中,以,1/2,的平均影響程度或以,3/2,的平均影響程度為標(biāo)準(zhǔn)進(jìn)行聚類分析,.,為了分析的更加細(xì)膩,可以將這些標(biāo)準(zhǔn)聯(lián)合運(yùn)用進(jìn)行平均秩效應(yīng)聚類分析,.,11/28/2024,聚類分析的效應(yīng)檢驗(yàn),11/28/2024,,11/28/2024,,11/28/2024,,11/28/2024,參考文獻(xiàn),11/28/2024,11/28/2024,本章結(jié)束,11/28/2024,