秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件

上傳人:仙*** 文檔編號:253071451 上傳時(shí)間:2024-11-28 格式:PPT 頁數(shù):68 大?。?.96MB
收藏 版權(quán)申訴 舉報(bào) 下載
廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件_第1頁
第1頁 / 共68頁
廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件_第2頁
第2頁 / 共68頁
廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件_第3頁
第3頁 / 共68頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件》由會員分享,可在線閱讀,更多相關(guān)《廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件(68頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、,,,,,,,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,*,*,第五章,數(shù)據(jù)的排序及有向聚類分析,,§5.1,引言,,,§5.2,事務(wù)項(xiàng)的排序標(biāo)準(zhǔn),,,§5.3,屬相項(xiàng)的排序標(biāo)準(zhǔn),,,§5.4,數(shù)據(jù)的衍生,,,§5.5,有序近鄰聚類分析,,,§5.6,有序平均秩效應(yīng)聚類分析,11/28/2024,§5.1,引 言,,數(shù)據(jù)排序在數(shù)據(jù)挖掘中顯得尤為重要,但往往被人們所忽視,.,因?yàn)樵跀?shù)據(jù)量較少時(shí),對于排序看起來不是什么問題,也無需專門去研究和討論,.,然而,對于海量數(shù)據(jù)的分析,排序問題就不是那么簡單了,.,可以想象利用,Web,的有關(guān)資料,

2、我們?nèi)绾螌⒕W(wǎng)絡(luò)廣告、街頭廣告、報(bào)刊廣告等對電視廣告的影響程度排序呢?又如,在大學(xué)生成長和發(fā)展過程,因素,q,1,,q,2,,...,q,25,所起的作用大小又是如何呢?,這些問題的解決不僅為進(jìn)一步的數(shù)據(jù)挖掘提供適合的數(shù)據(jù)形式,而且為數(shù)據(jù)分析過程中的算法改進(jìn)、提高精度、增強(qiáng)有效性奠定了理論基礎(chǔ),.,11/28/2024,,數(shù)據(jù)排序必須要有,研究對象,,即我們是對屬性項(xiàng),(,變量,),進(jìn)行排序,還是對事務(wù)項(xiàng),(,樣本,),進(jìn)行排序,這一點(diǎn)必須要明確,.,研究對象要根據(jù)問題的研究目的和內(nèi)容來確定,.,,,,在明確了排序的對象后,進(jìn)行排序前還要確定一個(gè),排序標(biāo)準(zhǔn),,標(biāo)準(zhǔn)不一樣,排序的結(jié)果不一樣,.,排

3、序標(biāo)準(zhǔn)的確定不是那么輕而易舉的,如果標(biāo)準(zhǔn)確定不好,不僅反映不出實(shí)際問題,而且還有可能誤導(dǎo)人們對問題的認(rèn)識,.,因此,排序標(biāo)準(zhǔn)的確定既要建立在一定的理論基礎(chǔ)上,而且又要有一定的實(shí)際背景,.,這方面的內(nèi)容我們將在后面詳細(xì)探討,.,11/28/2024,,隨著對數(shù)據(jù)的進(jìn)一步考慮,我們將會發(fā)現(xiàn),,排序后數(shù)據(jù)之間的“距離”,(包括相似的概念,以后不再強(qiáng)調(diào)),并不相等,,也就是排序后數(shù)據(jù)的稀疏程度不均勻.由于數(shù)據(jù)量過大,我們自然要關(guān)心的是對一個(gè)數(shù)據(jù)集合進(jìn)行分析,,這樣就提出了如何對排序資料進(jìn)行聚類分析.,11/28/2024,,我們知道聚類分析源于許多研究領(lǐng)域,包括數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、生物學(xué)以及機(jī)器學(xué)習(xí),,

4、但對有序樣品的聚類分析的理論內(nèi)容并不多,,(,胡國定,張潤楚,(1989), 286-319),,而且所研究的內(nèi)容立足點(diǎn)是,已知變量,(,或樣品,),具有一定的順序,其順序在聚類中是不能打亂的,即只能按其順序分成若干類,.,例如,欲了解兒童的生長發(fā)育規(guī)律,對所獲得的兒童的體重按發(fā)育階段進(jìn)行分類,這里很清楚,只能按年齡由小到大分成若干個(gè)發(fā)育階段,如果按不同的年齡,(,非順序性,),將兒童的體重進(jìn)行聚類分析,這樣的結(jié)果不適合生長發(fā)育規(guī)律的要求,.,這類有序變量,(,或樣品,),是客觀現(xiàn)實(shí)中存在的,這種有序我們稱為,客觀有序,.,,11/28/2024,,對于非有序數(shù)據(jù)進(jìn)行聚類分析,這在數(shù)據(jù)挖掘中已

5、經(jīng)成為一個(gè)非?;钴S的研究課題 (Trespv,V. (2001),Van,,Hulle,M.M.(2000),Gardner,M.,,,,Lalmas,M.and Ruthven,I.(2001),Friedman,J.H.,,(1997)).但是根據(jù)我們研究的內(nèi)容和聚類的目的,將數(shù)據(jù)排序后,再進(jìn)行聚類分析,這樣不僅會對聚類的結(jié)果有更細(xì)致深刻的認(rèn)識,還會大大提高聚類的運(yùn)算速度.,在這里我們所涉及到的有序數(shù)據(jù)是根據(jù)某一研究的目的排列而成的,這種有序我們稱為目的有序.,11/28/2024,§5.2.1,以信息源為標(biāo)準(zhǔn)的排序,§5.2,事務(wù)項(xiàng)(樣品)的排序標(biāo)準(zhǔn),11/28/2024,11/28/2

6、024,§5.2.2,以綜合屬性項(xiàng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.2.3,移動(dòng)通訊用戶綜合費(fèi)用排序,,我們已經(jīng)對某地區(qū)中國移動(dòng)通訊用戶數(shù)據(jù)庫進(jìn)行了壓縮分析,得到了關(guān)于屬性子集,A={,本地話費(fèi)、長途話費(fèi)、漫游費(fèi),},的壓縮信息系統(tǒng),.,現(xiàn)在將利用上面的方法對移動(dòng)通訊用戶的消費(fèi)情況進(jìn)行綜合評價(jià),以,2001,年,10,月的壓縮信息系統(tǒng)為例分析,.,計(jì)算出綜合評價(jià)指標(biāo),Z,,將其可視化得到,2001,年,10,月移動(dòng)通訊用戶消費(fèi)屬性綜合評價(jià)分布,(,圖,1-b),,比較接近用戶消費(fèi)概率分布,,(,圖,

7、1-a),,綜合排序以后的分布見圖,2,,由于圖,2,反映出排序以后前,20,位的綜合指標(biāo)較大,將其事務(wù)項(xiàng)列出見下表,.,11/28/2024,圖,1-a,圖,1-b,移動(dòng)通訊用戶消費(fèi)概率分布與綜合屬性評價(jià)分布比較,11/28/2024,圖,2,移動(dòng)通訊用戶消費(fèi)綜合屬性評價(jià)排序,11/28/2024,11/28/2024,,通過分析我們可以挖掘出以下知識:,,,,,i).,以此排序結(jié)果看,該地區(qū)移動(dòng)手機(jī)用戶平均消費(fèi)最大的綜合評價(jià)指標(biāo)值是,0.9865,,即本地話費(fèi)在,3,檔上,(100-300,元,),,長途話費(fèi)和漫游費(fèi)的消費(fèi)在,2,檔上,(0-100,元,).,從總體上,該地區(qū)的移動(dòng)手機(jī)用戶

8、的本地話費(fèi)消費(fèi)群體集中在,3,檔,長途話費(fèi)和漫游費(fèi)的消費(fèi)群體集中在,2,檔上,處于中低檔消費(fèi)水平,.,,ii).,這里需要特別說明的是,所有的,1,檔消費(fèi)群體綜合評價(jià)指標(biāo)值為,0.0513,,排在第,13,位,這些消費(fèi)者雖然擁有手機(jī)但沒有消費(fèi),它直接影響著該地區(qū)移動(dòng)通訊的業(yè)務(wù)總收入量,這部分消費(fèi)者具有潛在流失傾向,公司應(yīng)該針對此情況采取措施,.,我們對以后的幾個(gè)月進(jìn)行分析,發(fā)現(xiàn)這種情形越發(fā)嚴(yán)重,.,這種異?,F(xiàn)象的發(fā)現(xiàn),充分體現(xiàn)了數(shù)據(jù)挖掘的特點(diǎn),.,11/28/2024,§5.3,屬性項(xiàng),(,變量,),的排序標(biāo)準(zhǔn),11/28/2024,§5.3.1,以平均水平為標(biāo)準(zhǔn)的排序,11/28/2024,

9、11/28/2024,11/28/2024,§5.3.2,以秩效應(yīng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.4,數(shù)據(jù)的衍生,§5.4.1,數(shù)據(jù)矩陣,,,聚類分析是一種重要的人類行為,通過聚類人們能夠識別密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的相互關(guān)系,.,聚類分析作為數(shù)據(jù)挖掘的一種功能,不僅能獨(dú)立地來獲得數(shù)據(jù)分布情況,觀察每個(gè)族的特點(diǎn),集中對待定的某些族作出進(jìn)一步的分析,而且還是進(jìn)行其它數(shù)據(jù)分析,(,如回歸、分類、網(wǎng)絡(luò)分析等,),的預(yù)處理過程,(Owen, A. B. (1999))

10、.,可以說,聚類分析不論在理論上,還是在應(yīng)用上正在蓬勃發(fā)展,有貢獻(xiàn)的研究領(lǐng)域包括數(shù)據(jù)挖掘,(,Trespv,, V. (2001)),、統(tǒng)計(jì)學(xué),(Van,Der,Ark, L. A., Van,Der,,Heijden,, P. G. M. and,Sikkel,, D. (1999)),、機(jī)器學(xué)習(xí),(Krieger, A. M. and Green, P. E. (1999)),、空間數(shù)據(jù)庫技術(shù),(Nelson, D. E. (2001)),、生物學(xué),(Segal, E. and,Koller,, D.),以及市場營銷,(,Yun,, C. H.,,Chuang,, K. T. and

11、Chen, M. S.),等,.,由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析的研究工作已經(jīng)涉及到大型數(shù)據(jù)庫的有效和實(shí)際的聚類分析尋找適當(dāng)?shù)姆椒ㄉ?.,那么,聚類分析所針對的數(shù)據(jù)類型如何呢?這一問題的明確,將會為聚類分析的方法研究澄清思路,.,11/28/2024,11/28/2024,§5.4.2,相異度矩陣,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5,有序近鄰聚類分析,§5.5.1,相似指標(biāo)的確定及聚類分析,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5.2 Fisher,最優(yōu)求解法與有序近

12、鄰方法的比較,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.6,有序平均秩效應(yīng)聚類分析,§5.6.1,平均秩效應(yīng)原則及聚類方法,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,,11/28/2024,11/28/2024,11/28/2024,,通過上面的計(jì)算結(jié)果我們可以挖掘出一下知識:,,

13、,,i).,第一類與第二類所包含水平的影響程度明顯地高于平均影響程度,而且第一類遠(yuǎn)遠(yuǎn)高于其他類對大學(xué)生成長與發(fā)展的影響,,說明個(gè)人對未來的發(fā)展動(dòng)機(jī)與家庭狀況對自己的成長與發(fā)展影響最大,.,第二類僅次于平均影響程度,說明大學(xué)生對專業(yè)知識的加強(qiáng)在自己的成長與發(fā)展中起著相當(dāng)重要的作用,.,,ii).,第三類包括社會政治環(huán)境、報(bào)刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況,.,由于報(bào)刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況均與社會環(huán)境的好壞有著密切的關(guān)系,,我們可以將這一類概括為在現(xiàn)社會大環(huán)境因素,它對大學(xué)生成長和發(fā)展的影響與平均影響程度沒有顯著性的差異,.,,iii).,第四類、第五類與第六類所包含水平

14、的影響程度均低于平均影響程度,.,11/28/2024,,第四類所包括的內(nèi)容從兩個(gè)方面影響大學(xué)生的成長與發(fā)展,即一是對物質(zhì)方面的追求,二是老師言行及典型人物的影響,例如科學(xué)家和英雄人物,.,,,第五類包括校園文化活動(dòng)、學(xué)校管理制度和學(xué)校周圍環(huán)境,.,說明學(xué)校的各種狀況對大學(xué)生成長與發(fā)展有一定的影響,.,,,第六類所包括的水平有一般性的學(xué)術(shù)講座、學(xué)校政治思想工作、同班同學(xué)言行舉止、錄像或電影內(nèi)容、老鄉(xiāng)的各種行為,這一類涉及的內(nèi)容比較廣,稱其為綜合水平,.,其中老鄉(xiāng)的各種行為影響程度最小,而且它與其它水平影響程度的差異比較大,說明老鄉(xiāng)的各種行為在大學(xué)生成長與發(fā)展中作用極小,.,在這里需要強(qiáng)調(diào)的是,

15、一般性的學(xué)術(shù)講座和學(xué)校政治思想工作的影響程度略低于第五類,表明它們對大學(xué)生成長與發(fā)展有影響,但這種影響遠(yuǎn)遠(yuǎn)低于平均影響程度,.,這就要求學(xué)校有針對性的開展一般性的學(xué)術(shù)活動(dòng)和政治思想工作,.,11/28/2024,,最后需要說明的是,平均秩效應(yīng)聚類分析是建立在秩分析基礎(chǔ)之上的,類與類之間可以比較影響程度的大小,從中可以尋找出主要因素類和次要因素類,為解決實(shí)際問題提供較為可靠的依據(jù),.,為了特別地突出主次之分,在平均秩效應(yīng)聚類過程中,以,1/2,的平均影響程度或以,3/2,的平均影響程度為標(biāo)準(zhǔn)進(jìn)行聚類分析,.,為了分析的更加細(xì)膩,可以將這些標(biāo)準(zhǔn)聯(lián)合運(yùn)用進(jìn)行平均秩效應(yīng)聚類分析,.,11/28/2024,聚類分析的效應(yīng)檢驗(yàn),11/28/2024,,11/28/2024,,11/28/2024,,11/28/2024,參考文獻(xiàn),11/28/2024,11/28/2024,本章結(jié)束,11/28/2024,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!