秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

《Python金融數(shù)據(jù)挖掘》-ppt課件第11章

上傳人:風*** 文檔編號:253380566 上傳時間:2024-12-12 格式:PPTX 頁數(shù):41 大?。?.76MB
收藏 版權(quán)申訴 舉報 下載
《Python金融數(shù)據(jù)挖掘》-ppt課件第11章_第1頁
第1頁 / 共41頁
《Python金融數(shù)據(jù)挖掘》-ppt課件第11章_第2頁
第2頁 / 共41頁
《Python金融數(shù)據(jù)挖掘》-ppt課件第11章_第3頁
第3頁 / 共41頁

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《《Python金融數(shù)據(jù)挖掘》-ppt課件第11章》由會員分享,可在線閱讀,更多相關(guān)《《Python金融數(shù)據(jù)挖掘》-ppt課件第11章(41頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、,Python,金融數(shù)據(jù)挖掘,高等教育出版,第十一章,K,近鄰分類,與,K,均值聚類,算法,Python金融數(shù)據(jù)挖掘 高等教育出版第十一章K近鄰分類,【知識框架圖】,K,點分類,聚類算法,K,近鄰分類,算法應用場景,算法流程與實現(xiàn),K,均值聚類,算法應用場景,算法流程與實現(xiàn),【知識框架圖】K點分類聚類算法K近鄰分類算法應用場景算法流程,目錄,Contents,第一節(jié),K,近鄰分類原理與實現(xiàn),第二節(jié),K,均值聚類原理與實現(xiàn),第三節(jié),案例,目錄Contents第一節(jié)K近鄰分類原理與實現(xiàn)第二節(jié)K均值聚,本章,學習目標,掌握,K,近鄰分類算法研究的對象、意義、應用場景、算法原理及其實現(xiàn)。,掌握,K,均

2、值聚類算法研究的對象、意義、應用場景、算法原理及其實現(xiàn)。,本章學習目標掌握K近鄰分類算法研究的對象、意義、應用場景、算,需求背景,K,近鄰(,KNN,,,K Nearest Neighbors,)算法屬于分類算法。樣本數(shù)據(jù)集中除了數(shù)據(jù)點的坐標,每個點還有一個分類標簽,。,如果,現(xiàn)在新出現(xiàn)了一個待分類的數(shù)據(jù)點,A,,,KNN,算法是根據(jù)與,A,相鄰的,K,個樣本點分類歸屬情況,來決定,A,應該歸屬到哪一類。前面章節(jié)介紹過的決策樹算法、貝葉斯算法和,K,近鄰算法都屬于分類算法。,K,均值(,K-Means,)算法屬于聚類算法。樣本數(shù)據(jù)集中只有數(shù)據(jù)點的坐標,并沒有其分類標簽,。,但是,這些點并不是均

3、勻分布在整個坐標空間中,而是相對密集地聚集在幾個較小的范圍內(nèi),。,聚類,算法的目標是發(fā)現(xiàn)這些聚集的范圍,將所有那些沒有分類標簽的點,劃分到某個聚集范圍內(nèi)。,聚類算法和分類算法的區(qū)別在于:聚類算法是無監(jiān)督的,樣本數(shù)據(jù)可以沒有貼標簽;而分類算法是有監(jiān)督的,樣本數(shù)據(jù)需要有類別標簽。通俗理解,分類算法是貼標簽,而聚類算法是找朋友(物以類聚,人以群分)。,需求背景K近鄰(KNN,K Nearest Neighbor,01,K,近鄰分類原理與實現(xiàn),01K近鄰分類原理與實現(xiàn),K,近鄰分類算法的邏輯非常直觀:待分類的這個數(shù)據(jù)點歸屬到哪一類,由它的,K,個近鄰樣本點的分類情況決定。,每個樣本數(shù)據(jù)點都有若干個屬性

4、,例如一個手機網(wǎng)銀用戶的信息構(gòu)成這樣一個屬性集合:,年齡,學歷,收入,,。,通過,某種規(guī)則,將這些屬性值轉(zhuǎn)換成坐標值,即將用戶轉(zhuǎn)換成,n,維空間中的一個點。為了簡單起見,后文闡述以二維空間的點為例,。,如,圖,11-2,所示,待分類的數(shù)據(jù)點為,A,,圖中用圓表示;其他的數(shù)據(jù)分類結(jié)果是已知的(所謂有監(jiān)督的學習,表示監(jiān)督者已經(jīng)分好類,打好標簽了),被分為,1,和,2,兩類,分別用三角形和矩形表示。,K近鄰分類算法的邏輯非常直觀:待分類的這個數(shù)據(jù)點歸屬到哪一類,Python金融數(shù)據(jù)挖掘-ppt課件第11章,圖,11-2 K,近鄰算法,示意圖:,A,點的分類結(jié)果可以簡單地選擇,K,近鄰中相對多數(shù)的分類

5、標簽,例如,圖,11-2,中,A,的,3,個近鄰中有,2,個分類結(jié)果為,2,,占據(jù)多數(shù),因此,A,的分類結(jié)果為,2,。,也,可以相對復雜地按照距離遠近進行權(quán)重投票,圖,11 2,中分類標簽為,1,的近鄰雖然只有,1,個,但是它離,A,最近,如果權(quán)重比例足夠大,也有可能影響到,A,的最終分類結(jié)果。,圖 11-2 K近鄰算法示意圖:,K,近鄰分類算法的,流程圖:,K近鄰分類算法的流程圖:,【,例,11-1,】,下面代碼,首先新建了兩個數(shù)據(jù)點,testX,和,testY,,再分別調(diào)用,kNNClassify,函數(shù)計算其分類歸屬。,K,近鄰算法有比較直觀的解釋(特別是在低維空間中),其歐氏距離的計算量

6、也相對比較小,是一個應用很廣的基礎(chǔ)分類算法。,【例 11-1】,定義一,個用于計算歐氏距離的函數(shù),euclDistance,,使用,numpy,中的函數(shù)計算由列表形式存儲的兩個向量的歐式距離。,定義一個用于計算歐氏距離的函數(shù)euclDistance,使用,創(chuàng)建一個數(shù)據(jù)集,包含,2,個類別共,8,個樣本,:,創(chuàng)建一個數(shù)據(jù)集,包含2個類別共8個樣本:,KNN,分類算法函數(shù)實現(xiàn),:,定義一個,kNNClassify,函數(shù)。根據(jù),dataSet,和,labels,的輸入,選擇待分類點,newInput,的,k,個近鄰,決定其分類歸屬。,KNN分類算法函數(shù)實現(xiàn):,生成數(shù)據(jù)集和類別標簽,:,生成數(shù)據(jù)集和類

7、別標簽:,02,K,均值聚類原理與實現(xiàn),02K均值聚類原理與實現(xiàn),聚類,算法不需要事先對樣本點的類別歸屬進行判定和標識,而是能夠挖掘出現(xiàn)有樣本點的分布聚集規(guī)律,對樣本點自動進行歸屬劃分,。,聚類,算法被廣泛應用于客戶群體劃分、熱點區(qū)域發(fā)現(xiàn)等業(yè)務場景。例如:某證券公司一共有,N,個客戶,每個客戶的資金量、交易頻次等數(shù)據(jù)構(gòu)成一個樣本點,。,現(xiàn)在,希望能設(shè)計出一套手續(xù)費費率優(yōu)惠方案,既能夠較好地體現(xiàn)大客戶優(yōu)惠,又可以保證本公司的總體收入,。,這時候,就可以對這,N,個樣本點進行聚類分析,找出客戶支付手續(xù)費的不同聚集群體,有針對性地設(shè)計費率方案。又如:某銀行要開展理財產(chǎn)品現(xiàn)場促銷活動,需要選擇熱點商圈

8、(即客戶分布較密集的區(qū)域)來提升活動的潛在客戶數(shù)量,。,這時候,就要對手機網(wǎng)銀,APP,所提供的位置信息進行聚類,找出活動時間段內(nèi)潛在客戶的熱點活動區(qū)域,從而讓盡可能多的客戶了解促銷的信息,。,聚類算法不需要事先對樣本點的類別歸屬進行判定和標識,而是能夠,假設(shè),現(xiàn)在采集到二維坐標空間中的由,80,個坐標點構(gòu)成的數(shù)據(jù)集(可以理解成是一個,APP,采集到的,80,個客戶的某時點位置坐標),如表,11-1,所示,將數(shù)據(jù)保存在,Python,工作目錄下,命名為“,testSet.txt”,。:,X,Y,X,Y,X,Y,X,Y,1.658985,4.285136,2.336445,2.875106,2.

9、096701,3.886007,2.89422,2.489128,-3.453687,3.424321,-1.786345,2.554248,-2.70903,2.923887,-2.56254,2.884438,4.838138,-1.151539,2.190101,-1.90602,3.367037,-3.18479,3.491078,-3.94749,-3.195883,-2.283926,-3.837877,-3.253815,-3.17118,-3.57245,-4.90557,-2.91107,表,111 80,個點坐標數(shù)據(jù),假設(shè)現(xiàn)在采集到二維坐標空間中的由80個坐標點構(gòu)成的數(shù)據(jù)集

10、(可,應用聚類算法前,通常需要根據(jù)數(shù)據(jù)集的分布情況確定一個合理的聚類數(shù),K,,因此,事先探查數(shù)據(jù)集的空間分布情況有利于提高聚類的效果。在眾多的數(shù)據(jù)可視化工具中,,Excel,便是一個非常有效的探查樣本數(shù)據(jù)(樣本數(shù)據(jù)量太大時,可以先隨機抽取出少量樣本)空間分布特征的工具。針對表,11-1,中的數(shù)據(jù)集,我們可以借助,Excel,來繪制散點圖,如圖,11-4,所示。根據(jù),Excel,散點圖展示的數(shù)據(jù)分布情況可以發(fā)現(xiàn),其主要聚集在四個,區(qū)域:,圖 11-4 80個點坐標圖,應用聚類算法前,通常需要根據(jù)數(shù)據(jù)集的分布情況確定一個合理的聚,K,均值算法思想有直觀的幾何意義:將樣本點聚集(歸屬)到,距離,它最

11、近的那個,聚類中心,。找出數(shù)據(jù)集中的,K,個聚類中心是算法的目標(簡單起見,這里使用歐式距離來度量樣本間的相似度),。,K均值算法思想有直觀的幾何意義:將樣本點聚集(歸屬)到距離它,K,均值聚類算法流程圖,:,K均值聚類算法流程圖:,【,例,11-2】,Python,實現(xiàn),:,initCentroids,函數(shù)根據(jù)當前樣本數(shù)據(jù)集和指定的,k,,隨機生成,k,個中心點,用于聚類。,【例 11-2】Python實現(xiàn):initCentroids,K,均值聚類,:,K均值聚類:,2,維平面顯示聚類結(jié)果,:,2維平面顯示聚類結(jié)果:,調(diào)用以上函數(shù),對讀入數(shù)據(jù)進行聚類,:,原始數(shù)據(jù)分布,調(diào)用以上函數(shù),對讀入數(shù)

12、據(jù)進行聚類:原始數(shù)據(jù)分布,輸出結(jié)果:,根據(jù)聚類結(jié)果用不同的樣式顯示不同聚類的數(shù)據(jù)點,并且突出顯示了算法求出的,k=4,個聚類中心點。,K,均值聚類結(jié)果,輸出結(jié)果:K均值聚類結(jié)果,03,案例,03案例,銀行客戶群體,劃分,案例,某銀行要根據(jù)客戶資料制定新的促銷方案,客戶資料信息如表,11 2,所示。使用本章介紹的兩個聚類算法,對客戶進行聚類分析,從而確定促銷的客戶群體劃分方案,。,客戶,信息,如下:,ID,性別,年齡,年收入,(,萬元,),消費評分,(1-100),1,Male,19,15,39,2,Male,21,15,81,3,Female,20,16,6,4,Female,23,16,77

13、,5,Female,31,17,40,6,Female,22,17,76,7,Female,35,18,6,8,Female,23,18,94,9,Male,64,19,3,Male,30,137,83,銀行客戶群體劃分案例ID性別年齡年收入(萬元)消費評分(1-,導入數(shù)據(jù):,首先讀入數(shù)據(jù)文件,觀察數(shù)據(jù)結(jié)構(gòu)。為了便于后續(xù)數(shù)據(jù)規(guī)格化,將,ID,和性別列舍去,僅剩下,年齡、年收入、消費評分,三個屬性。,導入數(shù)據(jù):,為了,能夠以合適的尺度在坐標軸上展示數(shù)據(jù),調(diào)用了,sklearn,包,preprocessing,中的,scale,函數(shù),將所有的數(shù)據(jù)值進行規(guī)格化。,Sklearn,包將在后續(xù)章節(jié)中專門

14、介紹。,為了能夠以合適的尺度在坐標軸上展示數(shù)據(jù),調(diào)用了sklearn,繪制,3,維圖,:,第,5,行直接使用了,sklearn.decomposition,提供的,pca.fit_transform,函數(shù),將,3,維降低到,2,維。,pca.fit_transform,函數(shù)使用了,PCA,方法對數(shù)據(jù)集進行降維操作,,PCA,(,Principal Component Analysis,,主成分分析方法)是一種將原來的高維特征映射到低維空間的數(shù)學方法,既能降低數(shù)據(jù)維度,又能盡可能地保留高維信息。,繪制3維圖:第5行直接使用了sklearn.decompos,數(shù)據(jù)降為,2,維,,,繪制,2,維圖,

15、:,數(shù)據(jù)降為2維,繪制2維圖:,K,均值聚類,K均值聚類,將,case_clusterAssment,中的聚類結(jié)果寫回原始,DataFrame,將case_clusterAssment中的聚類結(jié)果寫回原始,輸出結(jié)果:,輸出結(jié)果:,結(jié)論:,將聚類得到的,case_clusterAssment,聚類結(jié)果寫回到原數(shù)據(jù),DataFrame,中,然后分別按照聚類結(jié)果對年齡、年收入、消費評分進行均值統(tǒng)計,。,可以,發(fā)現(xiàn),不同聚類的客戶,在這三個屬性的平均值上都存在顯著的差異。例如,聚類結(jié)果為,1,的客戶,平均年齡,45,,平均收入,82,最高(年富力強階段,收入較高),平均消費評分,24,最低(社會階層穩(wěn)

16、定,違約風險最低),。,聚類,結(jié)果和我們按照社會生活經(jīng)驗判定的結(jié)果吻合地比較好。,結(jié)論:,本章小結(jié),本章介紹了,K,近鄰分類和,K,均值算法的基本概念和原理,學會了用,Python,代碼實現(xiàn),K,近鄰分類和,K,均值算法。,本章小結(jié)本章介紹了K近鄰分類和K均值算法的基本概念和原理,學,重要概念,1,.,分類,與聚類,2,.K,近鄰分類,3,.K,均值算法,重要概念1.分類與聚類,復習思考題,1,.,給出一個數(shù)據(jù)集,data_multivar.txt,,里面有,200,個點坐標,在平面坐標系下可以畫出它的散點圖,如圖,11-8,所,示:,圖,118,數(shù)據(jù)集,data_multivar.txt,散點圖,用,K,均值算法來訓練模型,將該數(shù)據(jù)集的,200,個點分成,4,類,請運行,Python,代碼,ch13-ex.ipynb,。注意:運行之前,首先將給出的數(shù)據(jù)集,data_multivar.txt,和,utilities.py,拷貝到相應的文件夾中。讀者可以在程序中設(shè)置,k,值為,2,,,3,,,5,等,運行代碼進行比較。,復習思考題1.給出一個數(shù)據(jù)集data_multivar.t,復習思考

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!