騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT



《騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT》由會員分享,可在線閱讀,更多相關(guān)《騰訊公司培訓-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT(38頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,騰 訊 大 講 堂,研發(fā)管理部,數(shù)據(jù)蘊含商機,挖掘決勝千里,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,從運籌帷幄到?jīng)Q勝千里,舌戰(zhàn)群儒,草船借箭,巧借東風,火燒赤壁,赤壁懷古 蘇軾,羽扇綸巾,談笑間,檣櫓灰飛煙滅,.,觀日月之行,察天地之變,風,雷,電,雨,云,云多會下雨,刮風會下雨,下雨會閃電,閃電會打雷,換成它呢?,數(shù)據(jù)爆炸的時代,Data Mining,circa
2、1963,IBM 7090,600 cases,“,Machine storage limitations,restricted the total number of,variables which could be,considered at one time to 25.”,數(shù)據(jù)挖掘是,Data,Information,Knowledge,Wisdom,To find/discover/extract /dredge/harvest、,Interesting/novel/useful/implicit/actable/meaningful、,Information/knowledge/p
3、atterns/trends/rules/anomalies、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,多學科的融合,Databases,Statistics,Pattern,Recognition,KDD,Machine,Learning,AI,Neurocomputing,Data Mining,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,幾個基本概念,
4、模型(Model)vs 模式(Pattern),數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去,模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的全部點,例如聚類分析,模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析,算法(Algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出,描述型挖掘(Descriptive)vs 預(yù)料型挖掘(Predictive),描述型挖掘:對數(shù)據(jù)進行概括,以便利的形式呈現(xiàn)數(shù)據(jù)的重要特征,預(yù)料型
5、挖掘:依據(jù)視察到的對象特征值來預(yù)料它的其他特征值,描述型挖掘可以是目的,也可以是手段,數(shù)據(jù)挖掘是一個過程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),數(shù)據(jù)挖掘方法論,CRISP_DM(Cross Industry Standard Process for DM),1998年,由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項目組提出,SEMMA,SAS公司提出的方法,Sample,Explore,Modify,Model,Asse
6、ss,在戰(zhàn)略上運用Crisp_DM方法論,在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論,工欲善其事必先利其器,數(shù)據(jù)清洗,填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點,并解決數(shù)據(jù)不一樣問題,主要分析方法:分箱(Binning)、聚類、回來,數(shù)據(jù)集成,多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成,數(shù)據(jù)變換,規(guī)范化與匯總,數(shù)據(jù)簡化,削減數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果,主要分析方法:抽樣、主成分分析,數(shù)據(jù)離散化,數(shù)據(jù)簡化的一部分,但特別重要(尤其對于數(shù)值型數(shù)據(jù)來說),先來玩玩數(shù)據(jù)(,EDA,),探究性數(shù)據(jù)分析(Exploratory Data Analysis,EDA),探究性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系,對數(shù)據(jù)
7、集沒有各種嚴格假定,主要任務(wù),數(shù)據(jù)可視化(a picture is worth a thousand words),殘差分析(數(shù)據(jù)擬合+殘差),數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方根會簡化分析),方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值),常見方法,統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等,統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等,模型,如聚類,數(shù)據(jù)挖掘,=,模型,+,算法,分類預(yù)測,關(guān)聯(lián)規(guī)則,孤立點探測,聚類,Logistic Regression,決策樹,神經(jīng)網(wǎng)絡(luò),K-Means,K-Mode,SOM,(自組織圖),Apriori,FP-Grow
8、th,基于統(tǒng)計,基于距離,基于偏差,你運用過信用卡嗎?,卡應(yīng)當發(fā)給誰?,哪些持卡人會拖欠?,哪些拖欠的客戶會還款?,影響,資產(chǎn)組合,(,Portfolio,),1、依據(jù)歷史,預(yù)料將來,2、目標是一個分類變量,3、預(yù)料結(jié)果是一個統(tǒng)計意義下的概率,1,、哪些人可以發(fā)卡,額度是多少。,2,、持卡人拖欠的概率是多少,3,、該對誰催收,分類過程,訓練集,分類學習,訓練集,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,分類器,物以類聚,人以群分,人為地選取細分維度,客戶價值,地域,活躍程度,維度災(zāi)難的發(fā)生,維度增長,細分數(shù)目指數(shù)增長,人
9、腦僅能處理有限的維度,市場,聚類示意,基于歐氏距離的三維空間中的聚類,基于質(zhì)心的聚類算法,(K-Means),A1,A2,B1,x,y,z,發(fā)覺商品間的關(guān)聯(lián)規(guī)則,buy(x,”diapers”),buy(x,”beers”),關(guān)聯(lián)規(guī)則的量度,支持度:,Support(A=B)=#AB/#N,,表示,A,和,B,同時出現(xiàn)的概率,期望可信度:,Support(A)=#A/#N,,表示,A,出現(xiàn)的概率,置信度:,Confidence(A=B)=Support(A=B)/Support(B),改善度:,Lift(A=B)=Confidence(A=B)/Support(B),名稱,描述,公式,支持度,
10、X、Y,同時出現(xiàn)的頻率,P(X,Y),期望可信度,Y,出現(xiàn)的頻率,P(Y),置信度,X,出現(xiàn)的前提下,,Y,出現(xiàn)的頻率,P(Y|X),改善度,置信度對期望可信度的比值,P(Y|X)/P(Y),關(guān)聯(lián)規(guī)則的度量,發(fā)覺具有最小置信度和支持度的全部規(guī)則 X Y Z,支持度(support),s,事務(wù)中包含X&Y&Z的概率,置信度(confidence),c,事務(wù)中包含X&Y的條件下,包含Z的條件概率,令最小支持度為,50%,最小置信度為50%,則有,A,C (50%,66.6%),C,A (50%,100%),顧客購買尿布,顧客購買兩者,顧客購買啤酒,從算法到應(yīng)用,數(shù)據(jù)挖掘廠商,挖掘和統(tǒng)計分析平臺,S
11、AS EM,SPSS Clementine,S+Miner,Statistic Data Miner,與數(shù)據(jù)庫集成挖掘平臺,IBM IM,Oracle,NCR Teradata Miner,SQL 2005 DM,行業(yè)運用及解決方案,Unica,KXEN,HNC,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,看看,QQ,的流失數(shù)據(jù),流失率,2007,年,3,月,2007,年,4,月,2007,年,5,月,2007,年,6,月,當月活躍總帳戶數(shù),253,668,411,255,749,736,264,006,894,269,060,000,當月流失
12、老帳戶數(shù),6,572,087,6,006,582,5,466,807,8,217,569,當月老帳戶流失率,2.59%,2.35%,2.07%,3.05%,每個月5001000萬的老用戶流失,一年老用戶流失接近1億,實際自然人流失狀況雖然沒有這么嚴峻,但是仍舊是一個驚人的數(shù)據(jù)。,客戶流失是每個行業(yè)每天都在面對的問題,1、建立流失預(yù)料模型,回答客戶是否要流失,何時流失的問題,2、通過預(yù)料模型建立客戶流失管理機制,更為有效地管理流失,而不是去防止流失,一切從目標動身,目標變量:即須要依據(jù)業(yè)務(wù)需求確定模型須要預(yù)料的對象,在QQ客戶流失模型中即是在業(yè)務(wù)上對“流失”的定義。,緘默客戶數(shù)在4月后區(qū)域穩(wěn)定,
13、模型選擇連續(xù)緘默2個月作為流失的定義,目標變量的定義:,Good,:,在表現(xiàn)窗口連續(xù)兩個月有登陸的客戶,Bad:,在表現(xiàn)窗口連續(xù)兩個月都沒有登陸的客戶,Intermediate:,在表現(xiàn)窗口其中一個月有登陸的客戶,打開觀測用戶的窗口,訓練樣本 測試樣本,視察窗口:2007年1月2007年3月,表現(xiàn)窗口:2007年5月2007年6月,Time Lag:2007年4月,交叉校驗樣本,視察窗口:2007年2月2007年4月,表現(xiàn)窗口:2007年6月2007年7月,Time Lag:2007年5月,視察窗口,表現(xiàn)窗口,Time Lag,M,M-1,M-2,M-3,M-4,M-5,M+1,M+2,M+3
14、,1,視察窗口:形成自變量的時間段。,表現(xiàn)窗口,:形成因變量的時間段。,2,3,Time Lag,:預(yù)留給業(yè)務(wù)部門進行相應(yīng)操作的時間段。,1,2,3,變更幅度特征變量 描述用戶運用量上的變更幅度,勾畫出用戶行為的特征,基本屬性變量 描述用戶的基本屬性,產(chǎn)品運用行為特征 描述用戶運用產(chǎn)品的狀況,消息業(yè)務(wù)運用行為特征 描述用戶運用消息業(yè)務(wù)的狀況,音頻業(yè)務(wù)運用行為特征 描述用戶運用音頻業(yè)務(wù)的狀況,視頻業(yè)務(wù)運用行為特征 描述用戶運用視頻業(yè)務(wù)的狀況,客戶在線的行為特征 從在線時長,登陸次數(shù),登陸頻率等角度探討用戶的運用行為,歸屬地變更的行為特征 描述用戶在某一時間周期內(nèi)登陸所在地的變更狀況,中間變量,比
15、例特征變量 描述用戶業(yè)務(wù)運用占比,基礎(chǔ)變量,變量描述,行為趨勢特征變量 描述用戶的運用行為變更趨勢,變量描述,黃沙吹盡始到金,基礎(chǔ)變量和中間變量數(shù)目約為,224,個,經(jīng)過變量變換后的變量數(shù)目約為,1700,個,變量篩選,運用Logistic回來的Stepwise方法進行下一步擬合,卡方統(tǒng)計量,Chi Square,信息價值,Information Value,信息增益,Gain Index,單變量回來,偏相關(guān)分析,Partial Correlation,Lift,曲線,十分位,樣本數(shù)量,Lift,0,226,729,5.17,1,226,729,2.27,2,226,728,1.03,3,22
16、6,730,0.55,4,226,729,0.35,5,226,729,0.25,6,226,730,0.15,7,226,729,0.11,8,226,729,0.07,9,226,730,0.05,Total,2,267,293,1,ROC,曲線,50%,75%,建立閉環(huán)的業(yè)務(wù)流程,流失客戶分析,數(shù)據(jù)挖掘,數(shù)據(jù)分析,數(shù)據(jù)采集,/ETL,現(xiàn)有流程評估,計劃和設(shè)計挽留行動,執(zhí)行挽留行動,評估挽留結(jié)果,調(diào)整應(yīng)用流程,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,幾點心得,實施數(shù)據(jù)挖掘是一個戰(zhàn)略性舉措,Business First,Technique Second,數(shù)據(jù)挖掘不是萬能的,沒有它也不是萬萬不能,數(shù)據(jù)挖掘是一個循環(huán)探索的過程,參考文獻,網(wǎng)絡(luò)資源,dwway,,dmreview,datawarehouse,kdnuggets,Tecent Research,Question&Answer?,聯(lián)系我們,RTX:,simonjiang,TEL:,7999,RTX:,florayi,TEL:,8889,RTX:,jeavinqiu,TEL:
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅決打好反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會上和基層單位調(diào)研座談會上的發(fā)言材料
- 總工會關(guān)于2025年維護勞動領(lǐng)域政治安全的工作匯報材料
- 基層黨建工作交流研討會上的講話發(fā)言材料
- 糧食和物資儲備學習教育工作部署會上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機關(guān)單位、市紀委監(jiān)委2025年工作計劃
- 檢察院政治部關(guān)于2025年工作計劃
- 辦公室主任2025年現(xiàn)實表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項規(guī)定精神學習教育工作部署會議上的講話發(fā)言材料4篇
- 開展深入貫徹規(guī)定精神學習教育動員部署會上的講話發(fā)言材料3篇
- 在司法黨組中心學習組學習會上的發(fā)言材料
- 國企黨委關(guān)于推動基層黨建與生產(chǎn)經(jīng)營深度融合工作情況的報告材料
- 副書記在2025年工作務(wù)虛會上的發(fā)言材料2篇