騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT

上傳人：仙*** 文檔編號：252936494 上傳時間：2024-11-26 格式：PPT 頁數(shù)：38 大?。?.24MB

收藏版權(quán)申訴舉報下載

騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT_第1頁

第1頁 / 共38頁

騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT_第2頁

第2頁 / 共38頁

騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT_第3頁

第3頁 / 共38頁

本資源只提供3頁預(yù)覽，全部文檔請下載后查看！喜歡就下載吧，查找使用更方便

10 積分

下載資源

資源描述：

《騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT》由會員分享，可在線閱讀，更多相關(guān)《騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT（38頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,騰訊大講堂,研發(fā)管理部,數(shù)據(jù)蘊含商機，挖掘決勝千里,Agenda,數(shù)據(jù)挖掘是什么？,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,從運籌帷幄到?jīng)Q勝千里,舌戰(zhàn)群儒,草船借箭,巧借東風,火燒赤壁,赤壁懷古蘇軾,羽扇綸巾,談笑間,檣櫓灰飛煙滅,.,觀日月之行，察天地之變,風,雷,電,雨,云,云多會下雨,刮風會下雨,下雨會閃電,閃電會打雷,換成它呢？,數(shù)據(jù)爆炸的時代,Data Mining,circa

2、1963,IBM 7090,600 cases,“,Machine storage limitations,restricted the total number of,variables which could be,considered at one time to 25.”,數(shù)據(jù)挖掘是,Data,Information,Knowledge,Wisdom,To find/discover/extract /dredge/harvest、,Interesting/novel/useful/implicit/actable/meaningful、,Information/knowledge/p

3、atterns/trends/rules/anomalies、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,多學科的融合,Databases,Statistics,Pattern,Recognition,KDD,Machine,Learning,AI,Neurocomputing,Data Mining,Agenda,數(shù)據(jù)挖掘是什么？,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,幾個基本概念,

4、模型（Model）vs 模式（Pattern）,數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化（Generalize）到總體（Population）上去,模型：對數(shù)據(jù)集的一種全局性的整體特征的描述或概括，適用于數(shù)據(jù)空間中的全部點，例如聚類分析,模式：對數(shù)據(jù)集的一種局部性的有限特征的描述或概括，適用于數(shù)據(jù)空間的一個子集，例如關(guān)聯(lián)分析,算法（Algorithm）：一個定義完備（well-defined）的過程，它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出,描述型挖掘（Descriptive）vs 預(yù)料型挖掘（Predictive）,描述型挖掘：對數(shù)據(jù)進行概括，以便利的形式呈現(xiàn)數(shù)據(jù)的重要特征,預(yù)料型

5、挖掘：依據(jù)視察到的對象特征值來預(yù)料它的其他特征值,描述型挖掘可以是目的，也可以是手段,數(shù)據(jù)挖掘是一個過程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),數(shù)據(jù)挖掘方法論,CRISP_DM（Cross Industry Standard Process for DM）,1998年，由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項目組提出,SEMMA,SAS公司提出的方法,Sample,Explore,Modify,Model,Asse

6、ss,在戰(zhàn)略上運用Crisp_DM方法論，在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論,工欲善其事必先利其器,數(shù)據(jù)清洗,填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點,并解決數(shù)據(jù)不一樣問題,主要分析方法：分箱（Binning）、聚類、回來,數(shù)據(jù)集成,多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成,數(shù)據(jù)變換,規(guī)范化與匯總,數(shù)據(jù)簡化,削減數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果,主要分析方法：抽樣、主成分分析,數(shù)據(jù)離散化,數(shù)據(jù)簡化的一部分,但特別重要(尤其對于數(shù)值型數(shù)據(jù)來說),先來玩玩數(shù)據(jù)（,EDA,）,探究性數(shù)據(jù)分析（Exploratory Data Analysis,EDA）,探究性地查看數(shù)據(jù)，概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系,對數(shù)據(jù)

7、集沒有各種嚴格假定,主要任務(wù),數(shù)據(jù)可視化（a picture is worth a thousand words）,殘差分析（數(shù)據(jù)擬合+殘差）,數(shù)據(jù)的重新表達（什么樣的尺度對數(shù)抑或平方根會簡化分析）,方法的耐抗性（對數(shù)據(jù)局部不良的不敏感性，如中位數(shù)耐抗甚于均值）,常見方法,統(tǒng)計量，如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等,統(tǒng)計圖，如餅圖、直方圖、散點圖、箱尾圖等,模型，如聚類,數(shù)據(jù)挖掘,=,模型,+,算法,分類預(yù)測,關(guān)聯(lián)規(guī)則,孤立點探測,聚類,Logistic Regression,決策樹,神經(jīng)網(wǎng)絡(luò),K-Means,K-Mode,SOM,（自組織圖）,Apriori,FP-Grow

8、th,基于統(tǒng)計,基于距離,基于偏差,你運用過信用卡嗎？,卡應(yīng)當發(fā)給誰？,哪些持卡人會拖欠？,哪些拖欠的客戶會還款？,影響,資產(chǎn)組合,（,Portfolio,）,1、依據(jù)歷史，預(yù)料將來,2、目標是一個分類變量,3、預(yù)料結(jié)果是一個統(tǒng)計意義下的概率,1,、哪些人可以發(fā)卡，額度是多少。,2,、持卡人拖欠的概率是多少,3,、該對誰催收,分類過程,訓練集,分類學習,訓練集,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,分類器,物以類聚，人以群分,人為地選取細分維度,客戶價值,地域,活躍程度,維度災(zāi)難的發(fā)生,維度增長,細分數(shù)目指數(shù)增長,人

9、腦僅能處理有限的維度,市場,聚類示意,基于歐氏距離的三維空間中的聚類,基于質(zhì)心的聚類算法,(K-Means),A1,A2,B1,x,y,z,發(fā)覺商品間的關(guān)聯(lián)規(guī)則,buy(x,”diapers”),buy(x,”beers”),關(guān)聯(lián)規(guī)則的量度,支持度：,Support(A=B)=#AB/#N,，表示,A,和,B,同時出現(xiàn)的概率,期望可信度：,Support(A)=#A/#N,，表示,A,出現(xiàn)的概率,置信度：,Confidence(A=B)=Support(A=B)/Support(B),改善度：,Lift(A=B)=Confidence(A=B)/Support(B),名稱,描述,公式,支持度,

10、X、Y,同時出現(xiàn)的頻率,P(X,Y),期望可信度,Y,出現(xiàn)的頻率,P(Y),置信度,X,出現(xiàn)的前提下，,Y,出現(xiàn)的頻率,P(Y|X),改善度,置信度對期望可信度的比值,P(Y|X)/P(Y),關(guān)聯(lián)規(guī)則的度量,發(fā)覺具有最小置信度和支持度的全部規(guī)則 X Y Z,支持度(support),s,事務(wù)中包含X&Y&Z的概率,置信度(confidence),c,事務(wù)中包含X&Y的條件下,包含Z的條件概率,令最小支持度為,50%,最小置信度為50%,則有,A,C (50%,66.6%),C,A (50%,100%),顧客購買尿布,顧客購買兩者,顧客購買啤酒,從算法到應(yīng)用,數(shù)據(jù)挖掘廠商,挖掘和統(tǒng)計分析平臺,S

11、AS EM,SPSS Clementine,S+Miner,Statistic Data Miner,與數(shù)據(jù)庫集成挖掘平臺,IBM IM,Oracle,NCR Teradata Miner,SQL 2005 DM,行業(yè)運用及解決方案,Unica,KXEN,HNC,Agenda,數(shù)據(jù)挖掘是什么？,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,看看,QQ,的流失數(shù)據(jù),流失率,2007,年,3,月,2007,年,4,月,2007,年,5,月,2007,年,6,月,當月活躍總帳戶數(shù),253,668,411,255,749,736,264,006,894,269,060,000,當月流失

12、老帳戶數(shù),6,572,087,6,006,582,5,466,807,8,217,569,當月老帳戶流失率,2.59%,2.35%,2.07%,3.05%,每個月5001000萬的老用戶流失，一年老用戶流失接近1億,實際自然人流失狀況雖然沒有這么嚴峻，但是仍舊是一個驚人的數(shù)據(jù)。,客戶流失是每個行業(yè)每天都在面對的問題,1、建立流失預(yù)料模型，回答客戶是否要流失，何時流失的問題,2、通過預(yù)料模型建立客戶流失管理機制，更為有效地管理流失，而不是去防止流失,一切從目標動身,目標變量：即須要依據(jù)業(yè)務(wù)需求確定模型須要預(yù)料的對象，在QQ客戶流失模型中即是在業(yè)務(wù)上對“流失”的定義。,緘默客戶數(shù)在4月后區(qū)域穩(wěn)定,

13、模型選擇連續(xù)緘默2個月作為流失的定義,目標變量的定義：,Good,：,在表現(xiàn)窗口連續(xù)兩個月有登陸的客戶,Bad:,在表現(xiàn)窗口連續(xù)兩個月都沒有登陸的客戶,Intermediate:,在表現(xiàn)窗口其中一個月有登陸的客戶,打開觀測用戶的窗口,訓練樣本測試樣本,視察窗口:2007年1月2007年3月,表現(xiàn)窗口:2007年5月2007年6月,Time Lag:2007年4月,交叉校驗樣本,視察窗口:2007年2月2007年4月,表現(xiàn)窗口:2007年6月2007年7月,Time Lag:2007年5月,視察窗口,表現(xiàn)窗口,Time Lag,M,M-1,M-2,M-3,M-4,M-5,M+1,M+2,M+3

14、,1,視察窗口：形成自變量的時間段。,表現(xiàn)窗口,：形成因變量的時間段。,2,3,Time Lag,：預(yù)留給業(yè)務(wù)部門進行相應(yīng)操作的時間段。,1,2,3,變更幅度特征變量描述用戶運用量上的變更幅度,勾畫出用戶行為的特征,基本屬性變量描述用戶的基本屬性,產(chǎn)品運用行為特征描述用戶運用產(chǎn)品的狀況,消息業(yè)務(wù)運用行為特征描述用戶運用消息業(yè)務(wù)的狀況,音頻業(yè)務(wù)運用行為特征描述用戶運用音頻業(yè)務(wù)的狀況,視頻業(yè)務(wù)運用行為特征描述用戶運用視頻業(yè)務(wù)的狀況,客戶在線的行為特征從在線時長，登陸次數(shù)，登陸頻率等角度探討用戶的運用行為,歸屬地變更的行為特征描述用戶在某一時間周期內(nèi)登陸所在地的變更狀況,中間變量,比

15、例特征變量描述用戶業(yè)務(wù)運用占比,基礎(chǔ)變量,變量描述,行為趨勢特征變量描述用戶的運用行為變更趨勢,變量描述,黃沙吹盡始到金,基礎(chǔ)變量和中間變量數(shù)目約為,224,個,經(jīng)過變量變換后的變量數(shù)目約為,1700,個,變量篩選,運用Logistic回來的Stepwise方法進行下一步擬合,卡方統(tǒng)計量,Chi Square,信息價值,Information Value,信息增益,Gain Index,單變量回來,偏相關(guān)分析,Partial Correlation,Lift,曲線,十分位,樣本數(shù)量,Lift,0,226,729,5.17,1,226,729,2.27,2,226,728,1.03,3,22

16、6,730,0.55,4,226,729,0.35,5,226,729,0.25,6,226,730,0.15,7,226,729,0.11,8,226,729,0.07,9,226,730,0.05,Total,2,267,293,1,ROC,曲線,50%,75%,建立閉環(huán)的業(yè)務(wù)流程,流失客戶分析,數(shù)據(jù)挖掘,數(shù)據(jù)分析,數(shù)據(jù)采集,/ETL,現(xiàn)有流程評估,計劃和設(shè)計挽留行動,執(zhí)行挽留行動,評估挽留結(jié)果,調(diào)整應(yīng)用流程,Agenda,數(shù)據(jù)挖掘是什么？,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,幾點心得,實施數(shù)據(jù)挖掘是一個戰(zhàn)略性舉措,Business First,Technique Second,數(shù)據(jù)挖掘不是萬能的，沒有它也不是萬萬不能,數(shù)據(jù)挖掘是一個循環(huán)探索的過程,參考文獻,網(wǎng)絡(luò)資源,dwway,,dmreview,datawarehouse,kdnuggets,Tecent Research,Question&Answer?,聯(lián)系我們,RTX：,simonjiang,TEL：,7999,RTX：,florayi,TEL：,8889,RTX：,jeavinqiu,TEL：

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT

最新文檔

相關(guān)資源

相關(guān)搜索