秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

騰訊公司培訓(xùn)-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT

  • 資源ID:252936494       資源大?。?span id="mzebxcnn0" class="font-tahoma">2.24MB        全文頁數(shù):38頁
  • 資源格式: PPT        下載積分:10積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要10積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復(fù)下載(系統(tǒng)自動生成)
支付方式: 微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認(rèn)打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請知曉。

騰訊公司培訓(xùn)-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT

單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,騰 訊 大 講 堂,研發(fā)管理部,數(shù)據(jù)蘊含商機,挖掘決勝千里,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,從運籌帷幄到?jīng)Q勝千里,舌戰(zhàn)群儒,草船借箭,巧借東風(fēng),火燒赤壁,赤壁懷古 蘇軾,羽扇綸巾,談笑間,檣櫓灰飛煙滅,.,觀日月之行,察天地之變,風(fēng),雷,電,雨,云,云多會下雨,刮風(fēng)會下雨,下雨會閃電,閃電會打雷,換成它呢?,數(shù)據(jù)爆炸的時代,Data Mining,circa 1963,IBM 7090,600 cases,“,Machine storage limitations,restricted the total number of,variables which could be,considered at one time to 25.”,數(shù)據(jù)挖掘是,Data,Information,Knowledge,Wisdom,To find/discover/extract /dredge/harvest、,Interesting/novel/useful/implicit/actable/meaningful、,Information/knowledge/patterns/trends/rules/anomalies、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,多學(xué)科的融合,Databases,Statistics,Pattern,Recognition,KDD,Machine,Learning,AI,Neurocomputing,Data Mining,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,幾個基本概念,模型(Model)vs 模式(Pattern),數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去,模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的全部點,例如聚類分析,模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析,算法(Algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出,描述型挖掘(Descriptive)vs 預(yù)料型挖掘(Predictive),描述型挖掘:對數(shù)據(jù)進行概括,以便利的形式呈現(xiàn)數(shù)據(jù)的重要特征,預(yù)料型挖掘:依據(jù)視察到的對象特征值來預(yù)料它的其他特征值,描述型挖掘可以是目的,也可以是手段,數(shù)據(jù)挖掘是一個過程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),數(shù)據(jù)挖掘方法論,CRISP_DM(Cross Industry Standard Process for DM),1998年,由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項目組提出,SEMMA,SAS公司提出的方法,Sample,Explore,Modify,Model,Assess,在戰(zhàn)略上運用Crisp_DM方法論,在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論,工欲善其事必先利其器,數(shù)據(jù)清洗,填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點,并解決數(shù)據(jù)不一樣問題,主要分析方法:分箱(Binning)、聚類、回來,數(shù)據(jù)集成,多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成,數(shù)據(jù)變換,規(guī)范化與匯總,數(shù)據(jù)簡化,削減數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果,主要分析方法:抽樣、主成分分析,數(shù)據(jù)離散化,數(shù)據(jù)簡化的一部分,但特別重要(尤其對于數(shù)值型數(shù)據(jù)來說),先來玩玩數(shù)據(jù)(,EDA,),探究性數(shù)據(jù)分析(Exploratory Data Analysis,EDA),探究性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系,對數(shù)據(jù)集沒有各種嚴(yán)格假定,主要任務(wù),數(shù)據(jù)可視化(a picture is worth a thousand words),殘差分析(數(shù)據(jù)擬合+殘差),數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方根會簡化分析),方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值),常見方法,統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等,統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等,模型,如聚類,數(shù)據(jù)挖掘,=,模型,+,算法,分類預(yù)測,關(guān)聯(lián)規(guī)則,孤立點探測,聚類,Logistic Regression,決策樹,神經(jīng)網(wǎng)絡(luò),K-Means,K-Mode,SOM,(自組織圖),Apriori,FP-Growth,基于統(tǒng)計,基于距離,基于偏差,你運用過信用卡嗎?,卡應(yīng)當(dāng)發(fā)給誰?,哪些持卡人會拖欠?,哪些拖欠的客戶會還款?,影響,資產(chǎn)組合,(,Portfolio,),1、依據(jù)歷史,預(yù)料將來,2、目標(biāo)是一個分類變量,3、預(yù)料結(jié)果是一個統(tǒng)計意義下的概率,1,、哪些人可以發(fā)卡,額度是多少。,2,、持卡人拖欠的概率是多少,3,、該對誰催收,分類過程,訓(xùn)練集,分類學(xué)習(xí),訓(xùn)練集,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,分類器,物以類聚,人以群分,人為地選取細分維度,客戶價值,地域,活躍程度,維度災(zāi)難的發(fā)生,維度增長,細分?jǐn)?shù)目指數(shù)增長,人腦僅能處理有限的維度,市場,聚類示意,基于歐氏距離的三維空間中的聚類,基于質(zhì)心的聚類算法,(K-Means),A1,A2,B1,x,y,z,發(fā)覺商品間的關(guān)聯(lián)規(guī)則,buy(x,”diapers”),buy(x,”beers”),關(guān)聯(lián)規(guī)則的量度,支持度:,Support(A=B)=#AB/#N,,表示,A,和,B,同時出現(xiàn)的概率,期望可信度:,Support(A)=#A/#N,,表示,A,出現(xiàn)的概率,置信度:,Confidence(A=B)=Support(A=B)/Support(B),改善度:,Lift(A=B)=Confidence(A=B)/Support(B),名稱,描述,公式,支持度,X、Y,同時出現(xiàn)的頻率,P(X,Y),期望可信度,Y,出現(xiàn)的頻率,P(Y),置信度,X,出現(xiàn)的前提下,,Y,出現(xiàn)的頻率,P(Y|X),改善度,置信度對期望可信度的比值,P(Y|X)/P(Y),關(guān)聯(lián)規(guī)則的度量,發(fā)覺具有最小置信度和支持度的全部規(guī)則 X Y Z,支持度(support),s,事務(wù)中包含X&Y&Z的概率,置信度(confidence),c,事務(wù)中包含X&Y的條件下,包含Z的條件概率,令最小支持度為,50%,最小置信度為50%,則有,A,C (50%,66.6%),C,A (50%,100%),顧客購買尿布,顧客購買兩者,顧客購買啤酒,從算法到應(yīng)用,數(shù)據(jù)挖掘廠商,挖掘和統(tǒng)計分析平臺,SAS EM,SPSS Clementine,S+Miner,Statistic Data Miner,與數(shù)據(jù)庫集成挖掘平臺,IBM IM,Oracle,NCR Teradata Miner,SQL 2005 DM,行業(yè)運用及解決方案,Unica,KXEN,HNC,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,看看,QQ,的流失數(shù)據(jù),流失率,2007,年,3,月,2007,年,4,月,2007,年,5,月,2007,年,6,月,當(dāng)月活躍總帳戶數(shù),253,668,411,255,749,736,264,006,894,269,060,000,當(dāng)月流失老帳戶數(shù),6,572,087,6,006,582,5,466,807,8,217,569,當(dāng)月老帳戶流失率,2.59%,2.35%,2.07%,3.05%,每個月5001000萬的老用戶流失,一年老用戶流失接近1億,實際自然人流失狀況雖然沒有這么嚴(yán)峻,但是仍舊是一個驚人的數(shù)據(jù)。,客戶流失是每個行業(yè)每天都在面對的問題,1、建立流失預(yù)料模型,回答客戶是否要流失,何時流失的問題,2、通過預(yù)料模型建立客戶流失管理機制,更為有效地管理流失,而不是去防止流失,一切從目標(biāo)動身,目標(biāo)變量:即須要依據(jù)業(yè)務(wù)需求確定模型須要預(yù)料的對象,在QQ客戶流失模型中即是在業(yè)務(wù)上對“流失”的定義。,緘默客戶數(shù)在4月后區(qū)域穩(wěn)定,模型選擇連續(xù)緘默2個月作為流失的定義,目標(biāo)變量的定義:,Good,:,在表現(xiàn)窗口連續(xù)兩個月有登陸的客戶,Bad:,在表現(xiàn)窗口連續(xù)兩個月都沒有登陸的客戶,Intermediate:,在表現(xiàn)窗口其中一個月有登陸的客戶,打開觀測用戶的窗口,訓(xùn)練樣本 測試樣本,視察窗口:2007年1月2007年3月,表現(xiàn)窗口:2007年5月2007年6月,Time Lag:2007年4月,交叉校驗樣本,視察窗口:2007年2月2007年4月,表現(xiàn)窗口:2007年6月2007年7月,Time Lag:2007年5月,視察窗口,表現(xiàn)窗口,Time Lag,M,M-1,M-2,M-3,M-4,M-5,M+1,M+2,M+3,1,視察窗口:形成自變量的時間段。,表現(xiàn)窗口,:形成因變量的時間段。,2,3,Time Lag,:預(yù)留給業(yè)務(wù)部門進行相應(yīng)操作的時間段。,1,2,3,變更幅度特征變量 描述用戶運用量上的變更幅度,勾畫出用戶行為的特征,基本屬性變量 描述用戶的基本屬性,產(chǎn)品運用行為特征 描述用戶運用產(chǎn)品的狀況,消息業(yè)務(wù)運用行為特征 描述用戶運用消息業(yè)務(wù)的狀況,音頻業(yè)務(wù)運用行為特征 描述用戶運用音頻業(yè)務(wù)的狀況,視頻業(yè)務(wù)運用行為特征 描述用戶運用視頻業(yè)務(wù)的狀況,客戶在線的行為特征 從在線時長,登陸次數(shù),登陸頻率等角度探討用戶的運用行為,歸屬地變更的行為特征 描述用戶在某一時間周期內(nèi)登陸所在地的變更狀況,中間變量,比例特征變量 描述用戶業(yè)務(wù)運用占比,基礎(chǔ)變量,變量描述,行為趨勢特征變量 描述用戶的運用行為變更趨勢,變量描述,黃沙吹盡始到金,基礎(chǔ)變量和中間變量數(shù)目約為,224,個,經(jīng)過變量變換后的變量數(shù)目約為,1700,個,變量篩選,運用Logistic回來的Stepwise方法進行下一步擬合,卡方統(tǒng)計量,Chi Square,信息價值,Information Value,信息增益,Gain Index,單變量回來,偏相關(guān)分析,Partial Correlation,Lift,曲線,十分位,樣本數(shù)量,Lift,0,226,729,5.17,1,226,729,2.27,2,226,728,1.03,3,226,730,0.55,4,226,729,0.35,5,226,729,0.25,6,226,730,0.15,7,226,729,0.11,8,226,729,0.07,9,226,730,0.05,Total,2,267,293,1,ROC,曲線,50%,75%,建立閉環(huán)的業(yè)務(wù)流程,流失客戶分析,數(shù)據(jù)挖掘,數(shù)據(jù)分析,數(shù)據(jù)采集,/ETL,現(xiàn)有流程評估,計劃和設(shè)計挽留行動,執(zhí)行挽留行動,評估挽留結(jié)果,調(diào)整應(yīng)用流程,Agenda,數(shù)據(jù)挖掘是什么?,1,模型,+,算法,2,數(shù)據(jù)挖掘?qū)嵺`共享,3,心得與總結(jié),4,幾點心得,實施數(shù)據(jù)挖掘是一個戰(zhàn)略性舉措,Business First,Technique Second,數(shù)據(jù)挖掘不是萬能的,沒有它也不是萬萬不能,數(shù)據(jù)挖掘是一個循環(huán)探索的過程,參考文獻,網(wǎng)絡(luò)資源,dwway,,dmreview,datawarehouse,kdnuggets,Tecent Research,Question&Answer?,聯(lián)系我們,RTX:,simonjiang,TEL:,7999,RTX:,florayi,TEL:,8889,RTX:,jeavinqiu,TEL:

注意事項

本文(騰訊公司培訓(xùn)-關(guān)于數(shù)據(jù)挖掘數(shù)據(jù)的解析優(yōu)秀PPT)為本站會員(仙***)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!