《數(shù)據(jù)挖掘06-聚類(lèi)課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘06-聚類(lèi)課件(27頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,*,,,,,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,第五章 聚類(lèi)分析,,生物信息學(xué)平臺(tái),,2,內(nèi)容,一、聚類(lèi)分析的功能,,,二、聚類(lèi)分析的方法,,,三、聚類(lèi)分析的應(yīng)用,3,一、聚類(lèi)分析的功能,聚類(lèi):將數(shù)據(jù)集劃歸為不同組別,,,作用:,,獲得數(shù)據(jù)的分布規(guī)律,進(jìn)一步分析,,數(shù)據(jù)預(yù)處理,為分類(lèi)、關(guān)聯(lián)規(guī)則等作準(zhǔn)備,,,4,一、聚類(lèi)分析的功能,與分類(lèi)相同:,,聚類(lèi)的依據(jù):特征屬性,,聚類(lèi)過(guò)程:相似程度高的聚為一類(lèi),,與分類(lèi)不同:,,無(wú)監(jiān)督的學(xué)習(xí),,驗(yàn)證
2、更復(fù)雜,,,聚類(lèi)結(jié)果的質(zhì)量,,相似性,6,相似性度量(數(shù)值型),,例,1,:,,,,相似性判斷:,式,5.1,,原始數(shù)據(jù),,,結(jié)論:,1,、,2,相似程度高,這一結(jié)論可信嗎?,一、聚類(lèi)分析的功能,7,一、聚類(lèi)分析的功能,相似性度量,,例,1,:,,,,問(wèn)題:年齡、血壓范圍、數(shù)量級(jí)不同,應(yīng),,歸一化:,[0,1],,,,,結(jié)論:,1,、,3,相似程度高,8,一、聚類(lèi)分析的功能,相似性度量,,例,1,:,,,,10,一、聚類(lèi)分析的功能,相似性度量(分類(lèi)型),,二值:式,5.10/5.12,,對(duì)稱型(男、女),,非對(duì)稱型(陽(yáng)性,1,、陰性,0,),,,例:,Xi={0, 0, 1, 1, 0, 1,
3、 0, 1},,Xj={0, 1, 1, 0, 0, 1, 0, 0},,,對(duì)稱型:,D=3/8, S,=,5/8,,非對(duì)稱型:,D=3/5, S,=,2/5,(忽略特征值均為,0,的屬性),,11,一、聚類(lèi)分析的功能,相似性度量(二值型,-,對(duì)稱),,例,2,:,,,,,,,式,5.10,,,,,式,5.11,,,結(jié)論:,1,、,2,相似程度高,,,,13,相似性度量,,排序型:轉(zhuǎn)為數(shù)值型后,式,5.16,,計(jì)算相似性,,例,4,:,,,,,,,,結(jié)論:,,相似程度最高, 最不相似,,大小說(shuō)明相似程度不一樣,可定量衡量,一、聚類(lèi)分析的功能,,15,一、聚類(lèi)分析的功能,相似性度量,(,混
4、合型,式,5.17),,例,5.1,:,,,,,,,,相似程度最高,,16,聚類(lèi)方法,,劃分法,,k,-,均值算法,,k,-,中心點(diǎn)算法,,分層,,凝聚型分層聚類(lèi),,分裂型分層聚類(lèi),,基于密度的方法,,基于網(wǎng)格的方法,,基于模型的方法,二、聚類(lèi)分析的方法,18,k,-,均值算法,,隨機(jī),選擇若干樣本作為初始的簇的質(zhì)心,(平均點(diǎn)),;,,,repeat,,計(jì)算對(duì)象與各個(gè)簇的質(zhì)心的距離,將對(duì)象劃分到距離其最近的簇;,,,重新計(jì)算每個(gè)新簇的均值;,,,until,簇的質(zhì)心不再變化,。,,二、聚類(lèi)分析的方法,19,k,-,均值算法,,,二、聚類(lèi)分析的方法,20,二、聚類(lèi)分析的方法,聚類(lèi)過(guò)程,,例(同分
5、類(lèi)):,12,個(gè)樣本,,有兩個(gè)特征屬性,f1,、,f2,,,,類(lèi)別未知,要分成兩類(lèi),,,21,二、聚類(lèi)分析的方法,聚類(lèi)過(guò)程,,例(同分類(lèi)):,,隨機(jī)放入,A,、,B,兩類(lèi),:,,,1,4,8→A,0,,3,7,9,10→B,0,,初始,求聚類(lèi)中心(均值),:,,C,A0,(4.67, 5),,C,B0,(6.75, 6.25),,22,二、聚類(lèi)分析的方法,聚類(lèi)過(guò)程,,各樣本到聚類(lèi)中心的距離,,,,,,,,,,,迭代,,C,A1,(4.17, 3.33),C,B1,(9, 7),,,不斷逼近的過(guò)程,細(xì)微的調(diào)整、優(yōu)化,24,二、聚類(lèi)分析的方法,聚類(lèi)過(guò)程,,特征屬性可用數(shù)值描述,,上例中,f1, f2,值在同一數(shù)量級(jí)中。,,若不在同一數(shù)量級(jí)、相差較大,要進(jìn)行怎樣的預(yù)處理?否則,會(huì)有怎樣的困難?,25,三、聚類(lèi)分析的應(yīng)用,應(yīng)用實(shí)例,:,聚類(lèi)在基因表達(dá)譜知識(shí)挖掘中的應(yīng)用,,目的,,對(duì)兩個(gè)公共的基因表達(dá)數(shù)據(jù)集進(jìn)行研究,以發(fā)現(xiàn)大規(guī)?;虮磉_(dá)譜蘊(yùn)含的信息,,研究目標(biāo)變?yōu)?DM,的問(wèn)題:聚類(lèi),,,數(shù)據(jù)采集:,,CNS,數(shù)據(jù)集:,,NCI60,數(shù)據(jù)集,:,26,,數(shù)據(jù)預(yù)處理,,,數(shù)據(jù)挖掘-建立模型,,貝葉斯聚類(lèi),,