數(shù)據(jù)挖掘應(yīng)用簡(jiǎn)介



《數(shù)據(jù)挖掘應(yīng)用簡(jiǎn)介》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘應(yīng)用簡(jiǎn)介(75頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、Click to edit Master text styles,,Second level,,Third level,,Fourth level,,Fifth level,,Master title style,,,,,,數(shù)據(jù)挖掘應(yīng)用簡(jiǎn)介,,,引言,,,,分析報(bào)告給你后見(jiàn)之明 (hindsight);,,統(tǒng)計(jì)分析給你先機(jī) (foresight);,,數(shù)據(jù)挖掘給你洞察力 (insight)。,,,Berry & Linoff (1997),,目錄,數(shù)據(jù)挖掘基本概念,,客戶(hù)分群,,流失預(yù)測(cè),,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀(jì)90年代以來(lái),它的發(fā)展速度很快,加之它是多學(xué)科綜合
2、的產(chǎn)物,目前還沒(méi)有一個(gè)完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:,,,SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。 Bhavani(1999):“使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢(shì)的過(guò)程”。 Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫(kù)中尋找有意義、有價(jià)值信息的過(guò)程”。,,,,,(1) 分類(lèi):按照分析對(duì)象的屬性、特征,建立不同的組類(lèi)來(lái)描述事物。,,,(2) 聚類(lèi):識(shí)別出分析對(duì)內(nèi)在的規(guī)則,按照這些規(guī)則把對(duì)象分成若干類(lèi)。,,,(3) 關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關(guān)聯(lián)是某種
3、事物發(fā)生時(shí)其他事物會(huì)發(fā)生的這樣一種聯(lián)系。,,,(4) 預(yù)測(cè):把握分析對(duì)象發(fā)展的規(guī)律,對(duì)未來(lái)的趨勢(shì)做出預(yù)見(jiàn)。,,,(5) 偏差的檢測(cè):對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。,,數(shù)據(jù)挖掘主要功能,數(shù)據(jù)挖掘的方法,,,(1) 傳統(tǒng)統(tǒng)計(jì)方法:① 抽樣技術(shù):我們面對(duì)的是大量的數(shù)據(jù),對(duì)所有的數(shù)據(jù)進(jìn)行分析是不可能的也是沒(méi)有必要的,就要在理論的指導(dǎo)下進(jìn)行合理的抽樣。② 多元統(tǒng)計(jì)分析:因子分析,聚類(lèi)分析等。③ 統(tǒng)計(jì)預(yù)測(cè)方法,如回歸分析,時(shí)間序列分析等。,,,,(2) 可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來(lái),如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計(jì)的方法??梢暬夹g(shù)面對(duì)的一個(gè)難題是高維數(shù)據(jù)
4、的可視化。,,,(3) 決策樹(shù):利用一系列規(guī)則劃分,建立樹(shù)狀圖,可用于分類(lèi)和預(yù)測(cè)。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。,,,,數(shù)據(jù)挖掘的方法,,(4) 神經(jīng)網(wǎng)絡(luò):模擬人的神經(jīng)元功能,經(jīng)過(guò)輸入層,隱藏層,輸出層等,對(duì)數(shù)據(jù)進(jìn)行調(diào)整,計(jì)算,最后得到結(jié)果,用于分類(lèi)和回歸。,,,,(5) 遺傳算法:基于自然進(jìn)化理論,模擬基因聯(lián)合、突變、選擇等過(guò)程的一種優(yōu)化技術(shù)。,,(6) 關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個(gè)步驟:① 求出大數(shù)據(jù)項(xiàng)集。② 用大數(shù)據(jù)項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。,,,數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程 ——CR
5、ISP-DM,CRISP-DM是CRoss-Industry Standard Process-Data Mining的縮寫(xiě),CRISP-DM,商業(yè)理解,,數(shù)據(jù)理解,,數(shù)據(jù)準(zhǔn)備,,建立模型,,模型評(píng)估,,模型發(fā)布,商業(yè)理解(Business Understanding),,找問(wèn)題,----,確定商業(yè)目標(biāo),,對(duì)現(xiàn)有資源的評(píng)估,,確定問(wèn)題是否能夠通過(guò)數(shù)據(jù)挖掘來(lái)解決,,確定數(shù)據(jù)挖掘的目標(biāo),,制定數(shù)據(jù)挖掘計(jì)劃,數(shù)據(jù)理解(Data Understanding),,確定數(shù)據(jù)挖掘所需要的數(shù)據(jù),,對(duì)數(shù)據(jù)進(jìn)行描述,,數(shù)據(jù)的初步探索,,檢查數(shù)據(jù)的質(zhì)量,數(shù)據(jù)準(zhǔn)備(Data Preparation),,選擇數(shù)據(jù),,清
6、理數(shù)據(jù),,對(duì)數(shù)據(jù)進(jìn)行重建,,調(diào)整數(shù)據(jù)格式使之適合建模,建立模型(Modeling),,對(duì)各個(gè)模型進(jìn)行評(píng)價(jià),,選擇數(shù)據(jù)挖掘模型,,建立模型,,模型評(píng)估(Evaluation),,評(píng)估數(shù)據(jù)挖掘的結(jié)果,,對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程的前面步驟進(jìn)行評(píng)估,,確定下一步怎么辦?是發(fā)布模型?還是對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型,模型發(fā)布(Deployment),,把,數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中,,對(duì)模型進(jìn)行日常的監(jiān)測(cè)和維護(hù),,定期更新數(shù)據(jù)挖掘模型,,數(shù)據(jù)挖掘應(yīng)用領(lǐng)域,電信:流失、聚類(lèi),,銀行:聚類(lèi)(細(xì)分), 交叉銷(xiāo)售,,百貨公司/超市:購(gòu)物籃分析 (關(guān)聯(lián)規(guī)則),,保險(xiǎn):細(xì)分,交叉銷(xiāo)售,流失(
7、原因分析),,信用卡:欺詐探測(cè),細(xì)分,,電子商務(wù):網(wǎng)站日志分析,,稅務(wù)部門(mén):偷漏稅行為探測(cè),,警察機(jī)關(guān):犯罪行為分析,,醫(yī)學(xué):醫(yī)療保健,為何要數(shù)據(jù)挖掘?,數(shù)據(jù),,+ 工具,,+ 方法,,+,目標(biāo),,= 知識(shí),數(shù)據(jù),,+,工具,+,,方法,,= 信息,+,+,+,+,數(shù)據(jù),,+,工具,+ 方法,,+ 目標(biāo),,+,行動(dòng),,= 價(jià)值,目錄,數(shù)據(jù)挖掘基本概念,,客戶(hù)分群,,流失預(yù)測(cè),,引言,,,我不知道成功的關(guān)鍵是什么,但是我,,知道失敗的關(guān)鍵是什么?那就是你試圖取,,悅于每一個(gè)人!,,,Bill Cosby,,客戶(hù)分群,客戶(hù)分群,物以類(lèi)聚,人以群分,客戶(hù)分群----商業(yè)理解,根據(jù)目前業(yè)務(wù)的需要,首先
8、對(duì)公眾客戶(hù)進(jìn)行價(jià)值分析。,,,根據(jù)各公眾客戶(hù)的價(jià)值,結(jié)合客戶(hù)的使用行為,對(duì)客戶(hù)進(jìn)行分群,便于市場(chǎng)人員針對(duì)不同客戶(hù)群體制定合適的市場(chǎng)策略,取得提升、保留目標(biāo)客戶(hù)群的實(shí)質(zhì)性效果。,,,確定工作計(jì)劃,,客戶(hù)價(jià)值,,,賬單收入+結(jié)算費(fèi)用,-成本,,由于目前客戶(hù)成本無(wú)法計(jì)算,所以暫時(shí)考慮賬單收入和結(jié)算費(fèi)用。,,帳單收入,,普通電話(huà)和小靈通后付費(fèi)帳單收入,,小靈通預(yù)付費(fèi)帳單收入,,寬帶收入,,卡通話(huà)費(fèi)用折算(目前出帳帳單不含此項(xiàng),需從卡話(huà)單中統(tǒng)計(jì)),,結(jié)算費(fèi)用,,一般通話(huà)結(jié)算費(fèi)用,,智能網(wǎng)結(jié)算費(fèi)用,,客戶(hù)分群----商業(yè)理解,客戶(hù)分群----商業(yè)理解,注:以,上杭州數(shù)據(jù)截止。,,基準(zhǔn)客戶(hù)群,,公眾客戶(hù):,
9、,當(dāng)前在網(wǎng):,,入網(wǎng)超過(guò)3個(gè)月:,,擁有,,在網(wǎng),,非公免,,甲種用戶(hù),,入網(wǎng)滿(mǎn)三個(gè)月,,普通電話(huà)、小靈通、普通電話(huà)和小靈通1~4部,,客戶(hù)分群----數(shù)據(jù)理解,理解數(shù)據(jù)倉(cāng)庫(kù)的基本數(shù)據(jù)信息,:,,公眾客戶(hù)基本信息,,公眾用戶(hù)基本信息,,公眾用戶(hù)(固話(huà))帳單信息,,公眾寬帶用戶(hù)帳單信息,,公眾用戶(hù)本地通話(huà)信息,,公眾用戶(hù)長(zhǎng)途通話(huà)信息,,公眾用戶(hù)卡通話(huà)信息,,公眾用戶(hù)結(jié)算信息,,,數(shù)據(jù)倉(cāng)庫(kù),客戶(hù)分群----數(shù)據(jù)準(zhǔn)備,變量設(shè)計(jì),,,,數(shù)據(jù)探索,,,變量選擇,,變量設(shè)計(jì),變量設(shè)計(jì),,,,A.客戶(hù)基本信息,,,B.客戶(hù)價(jià)值信息,,,C.客戶(hù)行為信息,,價(jià)值、行為變量,客 戶(hù),競(jìng)爭(zhēng)行為,(月平均呼叫移動(dòng)
10、次數(shù)、非電信,IP,不同運(yùn)營(yíng)商個(gè)數(shù)……,呼叫行為,(傳統(tǒng)長(zhǎng)途月平均呼叫次數(shù)、,IP,長(zhǎng)途呼叫趨勢(shì)……),繳/欠費(fèi)信息,(按時(shí)繳費(fèi)次數(shù)、平均每次欠費(fèi)時(shí)長(zhǎng)……),客戶(hù)接觸記錄,(10000號(hào)呼叫次數(shù)、業(yè)務(wù)受理比率,……),產(chǎn)品擁有,(是否擁有,IP,語(yǔ)音服務(wù)、擁有號(hào)線個(gè)數(shù)……),在網(wǎng)時(shí)長(zhǎng),(成為電信客戶(hù)時(shí)長(zhǎng)),收入,(月平均區(qū)內(nèi)費(fèi)趨勢(shì)、總跳表費(fèi)用趨勢(shì)、,IP,費(fèi)用比例……,數(shù)據(jù)業(yè)務(wù)使用行為,(月平均撥號(hào)時(shí)長(zhǎng)、平均每天上網(wǎng)時(shí)長(zhǎng)……),行為,價(jià)值,行為,價(jià)值,行,為,價(jià)值,行為,行為,客戶(hù)分群----數(shù)據(jù)準(zhǔn)備,變量設(shè)計(jì),,,,數(shù)據(jù)探索,,,變量選擇,,數(shù)據(jù)探索,,主要目標(biāo),,,通過(guò)圖形化呈現(xiàn)工具和其他
11、的統(tǒng)計(jì)方法對(duì)數(shù)據(jù)質(zhì)量、數(shù)據(jù)分布有較全面的理解,最終選擇建立模型的數(shù)據(jù)記錄和數(shù)據(jù)屬性奠定基礎(chǔ)。,,主要手段,,值分析,,統(tǒng)計(jì)分析,,柱狀圖分析,,頻次分析,,其他,值分析,變量名,記錄數(shù),NULL值,不同值個(gè)數(shù),空格個(gè)數(shù),零值個(gè)數(shù),正值,負(fù)值,v_avg_phs_ipld_int_fee,85154,0,56,0,85094,60,0,v_avg_phs_tld_int_fee,85154,0,85,0,85057,97,0,v_avg_phs_ld_int_fee,85154,0,118,0,85021,133,0,v_fix_ipld_int_fee_trd,85154,0,565,0,84
12、512,334,308,v_200_ld_chg_trd,85154,0,658,0,84290,342,522,v_200_lc_chg_trd,85154,0,464,0,84401,360,393,v_200_chg_trd,85154,0,959,0,83828,542,784,v_fix_tld_int_fee_trd,85154,0,965,0,83907,605,642,v_avg_fix_ipld_int_fee,85154,0,425,0,84511,643,0,v_avg_fix_dis_fee_rt,85154,0,5760,0,72429,732,11993,v_avg
13、_fix_dis_fee,85154,0,6355,0,72429,733,11992,v_200_lc_chg_fluc,85154,0,277,0,84401,753,0,v_avg_200_lc_chg_all_rt,85154,0,585,0,84401,753,0,v_avg_200_lc_chg,85154,0,232,0,84401,753,0,統(tǒng)計(jì)分析,變量名,記錄數(shù),最小值,最大值,均值,標(biāo)準(zhǔn)差,眾數(shù),取眾數(shù)值個(gè)數(shù),取眾數(shù)值占比,v_avg_phs_ld_int_fee,85154,0,37381,4.07206,254.2262,0,85021,99.84%,v_fix_i
14、pld_int_fee_trd,85154,-787.32,637.54,0.00108,6.30476,0,84512,99.24%,v_avg_fix_ipld_int_fee,85154,0,102480,26.05267,799.6381,0,84511,99.24%,v_200_lc_chg_fluc,85154,0,12.25,0.08696,0.9633,0,84401,99.11%,v_avg_200_ld_chg_all_rt,85154,0,0.6837,0.00103,0.01542,0,84290,98.98%,v_avg_200_ld_chg,85154,0,2100
15、3.17,7.04395,192.3413,0,84290,98.98%,v_200_ld_chg_fluc,85154,0,12.25,0.10362,1.06177,0,84290,98.98%,v_avg_fix_tld_int_fee,85154,0,148626.7,39.48853,1046.238,0,83907,98.53%,v_fix_tld_int_fee_trd,85154,-1015.84,529.11,-0.03426,9.01527,0,83907,98.53%,v_200_chg_trd,85154,-418,310.56,-0.07828,3.32384,0,8
16、3828,98.44%,v_200_chg_fluc,85154,0,12.25,0.15303,1.27241,0,83828,98.44%,v_avg_200_chg,85154,0,22642.83,11.11534,240.9923,0,83828,98.44%,v_avg_fix_ld_int_fee_rt,85154,0,0.9817,0.0043,0.04455,0,83476,98.02%,v_avg_fix_ld_int_fee,85154,0,148626.7,65.5412,1366.096,0,83476,98.02%,v_fix_ld_int_fee_trd,8515
17、4,-1015.84,645.05,-0.03319,10.72853,0,83476,98.02%,柱狀圖分析,用戶(hù)的收入主要集中在20至80元,占80%以上用戶(hù)數(shù),其他,杭州西湖區(qū)某客戶(hù),3部固定電話(huà),近三月平均用卡通話(huà)次數(shù)1926次!?。?主叫號(hào)碼,被叫號(hào)碼,接入碼,通話(huà)開(kāi)始時(shí)間,實(shí)際通話(huà)時(shí)長(zhǎng),88162525,88866533,96201,2004-11-2 13:17,48,88162525,88477867,96201,2004-11-1 15:31,200,88162525,85805204,96201,2004-11-1 15:23,70.4,88162525,87632232
18、,96201,2004-11-1 15:22,52.1,88162525,88808310,96201,2004-11-1 15:14,50.7,88162525,13355711081,96201,2004-11-1 13:07,51.6,88162525,87582059,96201,2004-11-1 12:57,203.7,88162525,13905819155,96201,2004-11-1 12:53,87,88162525,87240866,96201,2004-10-29 16:13,84.8,88162525,13805714854,96201,2004-10-29 16:
19、05,75.5,88162525,87217881,96201,2004-10-29 16:04,6.2,88162525,87217881,96201,2004-10-29 16:03,12.5,88162525,13857173355,96201,2004-10-29 15:56,27,88162525,677372870,96201,2004-10-29 15:48,429,88162525,13391010110,96201,2004-10-29 14:46,77.7,88162525,13606641733,96201,2004-10-29 14:44,57.8,主叫號(hào)碼,被叫號(hào)碼,
20、接入碼,通話(huà)開(kāi)始時(shí)間,實(shí)際通話(huà)時(shí)長(zhǎng),88254348,13805714854,96201,2004-11-19 10:49,36.4,88254348,13906551056,96201,2004-11-18 16:28,56.3,88254348,85353396,96201,2004-11-18 16:23,52.9,88254348,13858063336,96201,2004-11-18 16:21,20.5,88254348,85804753,96201,2004-11-18 16:18,77.2,88254348,13600518404,96201,2004-11-18 16:17
21、,19.8,88254348,85804753,96201,2004-11-18 16:16,21.5,88254348,27860541,96201,2004-11-18 16:11,176.2,88254348,85804800,96201,2004-11-18 16:08,150.9,88254348,85675245,96201,2004-11-18 15:59,27.4,88254348,85353396,96201,2004-11-18 15:57,24.7,88254348,13355711081,96201,2004-11-18 15:55,123.1,88254348,139
22、05819155,96201,2004-11-18 15:52,57.7,88254348,13905819155,96201,2004-11-18 15:51,40.1,88254348,88368155,96201,2004-11-18 13:14,197.5,88254348,13396817860,96201,2004-11-17 15:19,139.8,主叫號(hào)碼,被叫號(hào)碼,接入碼,通話(huà)開(kāi)始時(shí)間,實(shí)際通話(huà)時(shí)長(zhǎng),88254444,2210319,96201,2004-10-13 15:17,61.1,88254444,13003613991,96201,2004-10-13 15:12,
23、33.6,88254444,2210189,96201,2004-10-13 14:30,20.9,88254444,2227713,96201,2004-10-13 14:21,334.8,88254444,2227713,96201,2004-10-13 14:20,49.3,88254444,2210189,96201,2004-10-13 14:15,83.7,88254444,4225190,96201,2004-10-13 13:36,115.4,88254444,114,96201,2004-10-13 13:35,22.5,88254444,87048376,96201,200
24、4-10-13 12:12,49,88254444,87049576,96201,2004-10-13 12:12,27.1,88254444,85610873,96201,2004-10-13 12:03,84.6,88254444,2210319,96201,2004-10-13 11:17,21.3,88254444,85384102,96201,2004-10-13 11:05,43.6,88254444,85384102,96201,2004-10-13 10:45,314.6,88254444,85384116,96201,2004-10-13 10:44,18.2,8825444
25、4,89180139,96201,2004-10-13 10:20,343.7,高帳單收入用戶(hù)對(duì)電信的貢獻(xiàn)不一定高,杭州桐廬縣小靈通用戶(hù)C,,當(dāng)月帳單金額,493.66,元,,發(fā)話(huà)網(wǎng)通通話(huà),25,次,受話(huà)網(wǎng)通通話(huà),5,次,結(jié)算費(fèi)用-,473.04,元,損失,473.04,元,!!!!,,,建德市新安江鎮(zhèn)普通用戶(hù),D,,當(dāng)月帳單金額,318.00,元,,撥打,168,結(jié)算費(fèi)用,-255.00,元,損失,255.00,元,!!!!,,注:以,上杭州數(shù)據(jù)帳務(wù)月為2004年10月,低帳單收入用戶(hù)對(duì)電信的貢獻(xiàn)不一定低,目前,電信衡量用戶(hù)貢獻(xiàn)度的主要指標(biāo)是帳單收入,即用戶(hù)以發(fā)話(huà)方或發(fā)話(huà)費(fèi)用給電信帶來(lái)的收入
26、,,杭州西湖區(qū)普通電話(huà)用戶(hù) A,,當(dāng)月帳單金額16.40元,,使用96201卡1143次,通話(huà)費(fèi)用684.42元,按6折算,貢獻(xiàn)410.65元!!!!,,建德市新安江鎮(zhèn)小靈通用戶(hù)B,,當(dāng)月帳單金額25.05元,,受話(huà)網(wǎng)通通話(huà)60次,結(jié)算費(fèi)用334.53元,貢獻(xiàn)334.53元!!!!,注:以,上杭州數(shù)據(jù)帳務(wù)月為2004年10月,客戶(hù)分群----數(shù)據(jù)準(zhǔn)備,變量設(shè)計(jì),,,,數(shù)據(jù)探索,,,變量選擇,,變量選擇,,應(yīng)結(jié)合業(yè)務(wù)意義、分群目的和數(shù)據(jù)質(zhì)量來(lái)選擇參與分群的變量:,,,從業(yè)務(wù)的角度看,無(wú)分析意義的變量不建議參與分群;,,取值個(gè)數(shù)較少、離散的變量及數(shù)據(jù)質(zhì)量較差的變量不建議參與分群;,,互相之間可以派
27、生(相關(guān)性太強(qiáng))的變量不建議全部參與分群;,,總量和分量不建議一起參與分群。,,客戶(hù)分群----建立模型,建模工具:,,,TERADATA WAREHOUSE MINER (Clustering),,算法:,,,a.,K-Means,,,b.,高斯混合模型,,,分群個(gè)數(shù)(7 加減 2),注:利用K均值算法需要先將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(Z_Score),分群結(jié)果特征刻畫(huà),,,分群模型調(diào)優(yōu),客戶(hù)分群----模型評(píng)估,注:建立模型和模型評(píng)估不是孤立的兩個(gè)階段,無(wú)法將兩個(gè)階段區(qū)隔的很清楚,特征刻畫(huà),利用TWM聚類(lèi)結(jié)果cluster similarity進(jìn)行特征刻畫(huà),特征刻畫(huà),利用透視圖進(jìn)行特征刻畫(huà),模型
28、調(diào)優(yōu),,客戶(hù)分群是一個(gè)螺旋上升,不斷優(yōu)化的過(guò)程,判斷分群結(jié)果是否理想:,,,群內(nèi)特征是否相似,,群間特征差異是否明顯,,分群結(jié)果是否具有業(yè)務(wù)指導(dǎo)意義,,,分群調(diào)優(yōu)可通過(guò)調(diào)整分群個(gè)數(shù)及調(diào)整分群變量輸入來(lái)實(shí)現(xiàn),客戶(hù)分群----模型發(fā)布,,確定,客戶(hù)分群,模型的結(jié)果,送到相應(yīng)的管理人員手中,對(duì),客戶(hù)分群,模型結(jié)果進(jìn)行應(yīng)用。,,對(duì),客戶(hù)分群,模型進(jìn)行日常的監(jiān)測(cè)和維護(hù),,定期更新,客戶(hù)分群,模型,,附:,,基于,(MR),市場(chǎng)營(yíng)銷(xiāo)再造的思想,在完成客戶(hù)行為分群和價(jià)值分群的基礎(chǔ)上,生成,VB,矩陣,山坡圖、戰(zhàn)略分群,VB矩陣,價(jià)值,,模式1,價(jià)值,,模式2,價(jià)值,,模式4,行為,,模式3,行為,,模式4,
29、價(jià)值,,模式3,行為,,模式1,行為,,模式2,將VB分群結(jié)果交叉,山坡圖,戰(zhàn)略分群,SS1,低值休眠型,,SS2,本地溫飽型,,SS3,短途離家型,,SS4,本地預(yù)警型,,SS5,本地活躍精明型,,SS6,長(zhǎng)途中值型,,SS7,傳統(tǒng)長(zhǎng)途成長(zhǎng)型,,SS8 IP,高值敏感型,,SS9,靈通伴我型,,特征刻畫(huà)后命名,戰(zhàn)略分群特征刻畫(huà),戰(zhàn)略分群總體特征描述 - SS1,低值休眠型,人數(shù),21103,,占總?cè)藬?shù),25,.,20,%。,,總費(fèi)用,占各客戶(hù)群總收入的,9.28%,,,ARPU值,最,低,,,為,19,.,56,元,。,,區(qū)間(,0.22,元)和長(zhǎng)途費(fèi)用(傳統(tǒng)國(guó)內(nèi)長(zhǎng)途,0.66,元、傳統(tǒng)國(guó)際
30、長(zhǎng)途,0.01,元、,IP,國(guó)內(nèi)長(zhǎng)途,0.10,元)幾乎沒(méi)有,,以區(qū)內(nèi)費(fèi)為主(,3.32,元,占總收入,16.74%,),但區(qū)內(nèi)費(fèi)遠(yuǎn)低于平均值(,12.23,元);月租費(fèi)占比最高,為,70.8%,。,,幾乎沒(méi)用優(yōu)惠!,,總費(fèi)用有微弱上升趨勢(shì)。,,繳費(fèi)周期最長(zhǎng)(平均,16,天,/,月)。,,平均欠費(fèi)金額次最低:,1.16,元。,SS1,,客戶(hù)分群總體特征描述 - SS8,IP高值敏感型,人數(shù),3193,,占總?cè)藬?shù),3,.,81,%。,,收入占比,7.51%,,,ARPU值,次最高,為,104,.,66,元,,,不含小靈通達(dá),98.62,元。,,區(qū)內(nèi)費(fèi)用,(27.73,元,),次最高。區(qū)間費(fèi),(4
31、.68,元,),用較高。區(qū)內(nèi)區(qū)間費(fèi)用下降趨勢(shì)明顯。,,,總長(zhǎng)途費(fèi)用最高,,IP,長(zhǎng)途費(fèi)用最高(,35.54,元,),,;國(guó)際費(fèi)用最高,(5.76,元,),,但是以,IP,為主,,,且,IP,國(guó)際最高(,4.73,元,,平均值,0.55,元) ;有一定的傳統(tǒng)長(zhǎng)途(,8.91,元,),。所有的長(zhǎng)途費(fèi)用趨勢(shì)下降。有一定,17908,費(fèi)用。,201,費(fèi)用最高,略高于,17908,費(fèi)用,主要為長(zhǎng)途,201,費(fèi)用。,201,卡和,17908,費(fèi)用均有下降趨勢(shì)。電信,IP,接入費(fèi)最高且遠(yuǎn)高于他網(wǎng),IP,。撥打異商,IP,電話(huà)較多 ;撥打本地行動(dòng)較多。簡(jiǎn)單地說(shuō),用,17909,打長(zhǎng)途,電信,IP,一族!平均每
32、個(gè)用戶(hù)半年撥打,35,個(gè)不同的長(zhǎng)途號(hào)碼。撥打不同長(zhǎng)途電話(huà)最多。,,享受的總優(yōu)惠最多。,,總費(fèi)用下降趨勢(shì)最明顯。,,平均欠費(fèi)金額接近最高:,6.34,元。,SS8,戰(zhàn)略分群分布,群號(hào),人數(shù),人數(shù)占比,收入,收入占比,ARPU值,SS1,21,103,25.20%,412,725.24,9.28%,19.56,SS2,19,028,22.73%,560,889.39,12.61%,29.48,SS3,2,632,3.14%,116,503.04,2.62%,44.26,SS4,2,870,3.43%,110,944.87,2.49%,38.66,SS5,7,388,8.82%,429,685.85
33、,9.66%,58.16,SS6,3,730,4.45%,175,541.46,3.95%,47.06,SS7,3,201,3.82%,283,863.51,6.38%,88.68,SS8,3,193,3.81%,334,165.06,7.51%,104.66,SS9,11,379,13.59%,1,404,491.09,31.58%,123.43,合計(jì),74,524,89.01%,3,828,809.51,86.10%,,目錄,數(shù)據(jù)挖掘基本概念,,客戶(hù)分群,,流失預(yù)測(cè),,引言,,,世界是物質(zhì)的,物質(zhì)是運(yùn)動(dòng)的,運(yùn)動(dòng)是,,有規(guī)律的,規(guī)律是可以認(rèn)識(shí)和利用的,,,,馬克思,,流失預(yù)測(cè)----商業(yè)理解
34、,對(duì)用戶(hù)話(huà)音收入進(jìn)行監(jiān)控,盡早感知用戶(hù)流失的可能性,在流失前或流失行為的初期階段就能夠有針對(duì)性的開(kāi)展工作,避免進(jìn)一步的損失;,,,根據(jù)目前業(yè)務(wù)的需要,首先對(duì),公眾用戶(hù),進(jìn)行分析,。,,,確定工作計(jì)劃,,話(huà)音收入,,,包括除月租、來(lái)顯費(fèi)、信息費(fèi)等增值業(yè)務(wù)費(fèi)以外所有語(yǔ)音通信收入,含上網(wǎng)通信費(fèi)。,,基準(zhǔn)用戶(hù)群,,公眾固話(huà)用戶(hù),,(普通電話(huà)和小靈通,由于小靈通預(yù)付費(fèi)暫無(wú)賬單,目前主要針對(duì)普通電話(huà));,,當(dāng)前在網(wǎng)用戶(hù);,,非公免用戶(hù);,,入網(wǎng)三個(gè)月以上用戶(hù);,,基準(zhǔn)客戶(hù)群,,基準(zhǔn)用戶(hù)所屬的所有客戶(hù);,,擁有4部以下固話(huà)(普通電話(huà)、小靈通);,,潛在話(huà)音收入流失客戶(hù),,,客戶(hù)所屬的用戶(hù)中,至少有一個(gè)潛在的
35、話(huà)音收入流失用戶(hù);,,話(huà)音收入流失定義,,月話(huà)音收入與前三個(gè)月平均話(huà)音收入相比下降30%以上;,流失預(yù)測(cè)----商業(yè)理解,流失預(yù)測(cè)----數(shù)據(jù)理解,理解數(shù)據(jù)倉(cāng)庫(kù)的基本數(shù)據(jù)信息,:,,公眾客戶(hù)基本信息,,公眾用戶(hù)基本信息,,公眾用戶(hù)(固話(huà))帳單信息,,公眾用戶(hù)本地通話(huà)信息,,公眾用戶(hù)長(zhǎng)途通話(huà)信息,,,數(shù)據(jù)倉(cāng)庫(kù),流失預(yù)測(cè)----數(shù)據(jù)準(zhǔn)備,變量設(shè)計(jì),,,,數(shù)據(jù)探索,,,變量選擇,,變量設(shè)計(jì),變量設(shè)計(jì),,,,A.客戶(hù)(用戶(hù))基本信息,,,B.用戶(hù)價(jià)值信息,,,C.用戶(hù)行為信息,,價(jià)值、行為變量,用戶(hù),競(jìng)爭(zhēng)行為,(月平均呼叫移動(dòng)次數(shù)、非電信,IP,不同運(yùn)營(yíng)商個(gè)數(shù)……,呼叫行為,(傳統(tǒng)長(zhǎng)途月平均呼叫次數(shù)…
36、…),繳/欠費(fèi)信息,(按時(shí)繳費(fèi)次數(shù)、平均每次欠費(fèi)時(shí)長(zhǎng)……),客戶(hù)接觸記錄,(10000號(hào)呼叫次數(shù)、業(yè)務(wù)受理比率……),產(chǎn)品擁有,(是否擁有,IP,語(yǔ)音服務(wù)、擁有號(hào)線個(gè)數(shù)……),在網(wǎng)時(shí)長(zhǎng),(成為電信用戶(hù)時(shí)長(zhǎng)),收入,(月平均區(qū)內(nèi)費(fèi)趨勢(shì)、,IP,費(fèi)用比例……,價(jià)值,行為,價(jià)值,行為,價(jià)值,行為,行為,流失預(yù)測(cè)----數(shù)據(jù)準(zhǔn)備,變量設(shè)計(jì),,,,數(shù)據(jù)探索,,,變量選擇,,數(shù)據(jù)探索,,主要目標(biāo),,,通過(guò)圖形化呈現(xiàn)工具和其他的統(tǒng)計(jì)方法對(duì)數(shù)據(jù)質(zhì)量、數(shù)據(jù)分布有較全面的理解,最終選擇建立模型的數(shù)據(jù)記錄和數(shù)據(jù)屬性奠定基礎(chǔ),。,,主要手段,,值分析,,統(tǒng)計(jì)分析,,柱狀圖分析,,頻次分析,,其他,27%用戶(hù)8月份話(huà)音
37、收入比7月份下降30%以上,注:以,上杭州數(shù)據(jù)截止2004.8.21.,高收入段的用戶(hù)流失率也高,一旦流失,少有回頭,公眾普通電話(huà)用戶(hù),,2004年3月到8月在網(wǎng);,,三月的話(huà)音收入[20,300](元),,共:400533用戶(hù),,M3,M4,M5,M6,M7,M8,38%,69%,79%,83%,89%,M3,三月份為基準(zhǔn)月,共400533普通電話(huà)用戶(hù),占24%,話(huà)音收入占65%;,,四月份話(huà)音收入比三月份下降30%者(M4)占目標(biāo)群的38%;,,M4中,69%在五月份話(huà)音收入繼續(xù)保持比三月份下降30%(M5);,,這樣的比例,在6,7,8分別達(dá)到,79%,83%,89%;,,啟示:,,一旦
38、下降,后續(xù)月份很少反彈;,,如果本月比上月相比下降了,30%,以上,則應(yīng)該立即有所行動(dòng);,,如果需要對(duì)將要流失的用戶(hù)實(shí)施預(yù)見(jiàn)性的市場(chǎng)保育工作,那么關(guān)鍵是要預(yù)測(cè)下月將要流失的用戶(hù);,話(huà)音收入下降要警惕,,本月話(huà)音收入比近三個(gè)月話(huà)音收入下降20%以上的用戶(hù),流失率開(kāi)始明顯高于平均流失率;,,傳統(tǒng)長(zhǎng)話(huà)收入與流失,近三個(gè)月傳統(tǒng)長(zhǎng)話(huà)收入較高的用戶(hù),流失率相對(duì)較高;,,在,近三個(gè)月傳統(tǒng)長(zhǎng)話(huà)收入大于,12,元的用戶(hù)群中,流失率比平均流失率高,10,個(gè)百分點(diǎn);,入網(wǎng)時(shí)長(zhǎng)與流失,入網(wǎng)時(shí)間小于三年的用戶(hù),流失率略高于平均流失率,而且入網(wǎng)時(shí)間越短流失率越高;,流失預(yù)測(cè)----數(shù)據(jù)準(zhǔn)備,變量設(shè)計(jì),,,,數(shù)據(jù)探索,,,
39、變量選擇,,變量選擇,,應(yīng)結(jié)合數(shù)據(jù)探索(變量分析)和數(shù)據(jù)質(zhì)量來(lái)選擇參與預(yù)測(cè)建模的變量:,,,變量分析時(shí)各分段組內(nèi)流失率與平均流失率相近的變量不參與建模;,,,相關(guān)性太強(qiáng)(各分段組內(nèi)流失率相近)的變量不建議參與預(yù)測(cè)建模;,流失預(yù)測(cè)----建立模型,注:采樣比例不一定都是50%,視數(shù)據(jù)量而定,建模工具,,TERADATA WAREHOUSE MINER(DECISION TREE),,,采樣,,訓(xùn)練集:50%,,測(cè)試集:50%,流失預(yù)測(cè)----模型評(píng)估,使用模型對(duì)八月的用戶(hù)數(shù)據(jù)進(jìn)行評(píng)分,得到每個(gè)用戶(hù)在九月的流失傾向分值;使用模型對(duì)九月的用戶(hù)數(shù)據(jù)進(jìn)行評(píng)分,得到每個(gè)用戶(hù)在十月的流失傾向分值;,,使用用戶(hù)在九月、十月實(shí)際的流失情況,來(lái)評(píng)估模型預(yù)測(cè)結(jié)果在未來(lái)一個(gè)月、兩個(gè)月的命中率;,,主要的關(guān)注點(diǎn):模型評(píng)分分值較高的若干用戶(hù)中,實(shí)際的命中率;用戶(hù)數(shù)的一般取法:,,占總用戶(hù)群10%的用戶(hù);,,根據(jù)市場(chǎng)需要,關(guān)注評(píng)分靠前的1000、5000、10000、20000或50000個(gè)用戶(hù);,驗(yàn)證數(shù)據(jù):9月,流失預(yù)測(cè)----模型發(fā)布,,確定,流失預(yù)測(cè),模型的結(jié)果,送到相應(yīng)的管理人員手中,對(duì),流失預(yù)測(cè),模型結(jié)果進(jìn)行應(yīng)用。,,,對(duì),流失預(yù)測(cè),模型進(jìn)行日常的監(jiān)測(cè)和維護(hù),,,定期更新,流失預(yù)測(cè),模型,,?????,?,!?。。?謝謝,
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專(zhuān)題黨課講稿:以高質(zhì)量黨建保障國(guó)有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅(jiān)決打好反腐敗斗爭(zhēng)攻堅(jiān)戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風(fēng)清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會(huì)上和基層單位調(diào)研座談會(huì)上的發(fā)言材料
- 總工會(huì)關(guān)于2025年維護(hù)勞動(dòng)領(lǐng)域政治安全的工作匯報(bào)材料
- 基層黨建工作交流研討會(huì)上的講話(huà)發(fā)言材料
- 糧食和物資儲(chǔ)備學(xué)習(xí)教育工作部署會(huì)上的講話(huà)發(fā)言材料
- 市工業(yè)園區(qū)、市直機(jī)關(guān)單位、市紀(jì)委監(jiān)委2025年工作計(jì)劃
- 檢察院政治部關(guān)于2025年工作計(jì)劃
- 辦公室主任2025年現(xiàn)實(shí)表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項(xiàng)規(guī)定精神學(xué)習(xí)教育工作部署會(huì)議上的講話(huà)發(fā)言材料4篇
- 開(kāi)展深入貫徹規(guī)定精神學(xué)習(xí)教育動(dòng)員部署會(huì)上的講話(huà)發(fā)言材料3篇
- 在司法黨組中心學(xué)習(xí)組學(xué)習(xí)會(huì)上的發(fā)言材料
- 國(guó)企黨委關(guān)于推動(dòng)基層黨建與生產(chǎn)經(jīng)營(yíng)深度融合工作情況的報(bào)告材料
- 副書(shū)記在2025年工作務(wù)虛會(huì)上的發(fā)言材料2篇
相關(guān)資源
更多