大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)課件



《大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)課件(239頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,,,,單擊此處編輯母版標(biāo)題樣式,,,成都,*,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,,,,,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,,成都,*,大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能,1,息頤鈴蠢堆緘偷前箋幼堰揚(yáng)斷糙庫(kù)深豌策話瓶冒醇薩滑林廊疚沫筏氟飾仗大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),,,第三部分,,,基于統(tǒng)計(jì)的傳統(tǒng)數(shù)據(jù)分析技術(shù),2,游保恩贏嫡侈樸狗跟諷壞鹿輻路舟漱篙垃癰中斯混框?qū)嬓鷱澼嫸薨暧崉C堆大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)
2、分析基本概念,統(tǒng)計(jì)學(xué)簡(jiǎn)介,,測(cè)量與數(shù)據(jù),,數(shù)據(jù)來(lái)源,,數(shù)據(jù)的類型,,數(shù)據(jù)預(yù)處理技術(shù),,3,螢瘤但禁縱擔(dān)者揖絹痢愈拴苗傳厘菠寵越吝擬辱哇篆塘雜盂赴聲纜聊岸聘大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)數(shù)據(jù)分析方法,,描述統(tǒng)計(jì),,,推斷統(tǒng)計(jì),,,常用統(tǒng)計(jì)分析軟件,,,4,泉詹握俞繪垃撫沉辮夫疑養(yǎng)蝶鴛鞏四吠磅酚鍬沙教渦湯憨礁扁坎孩搽薯爐大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)學(xué)家的幽默,統(tǒng)計(jì)學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說(shuō)若X=Y且Y=Z,則X=Z嗎!那么想必你若喜歡一個(gè)女孩,那么這個(gè)女孩喜歡的男生你也喜歡吧?,,,數(shù)學(xué)家反問(wèn)道:那么你
3、把左手放到一鍋一百度的開(kāi)水中,右手放到一鍋零度的冰水里想來(lái)也沒(méi)事吧!因?yàn)樗鼈兤骄贿^(guò)是五十度而已!,”,,5,玻甄渤迪鳳慣疵鈍怪挾鮮叫稠炔藐祟捅梨屈害震渤駱出焉譬準(zhǔn)舉巳矢軀芭大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),何為統(tǒng)計(jì)學(xué)?,統(tǒng)計(jì)與數(shù)量有關(guān),同時(shí)它已經(jīng)滲透到社會(huì)經(jīng)濟(jì)活動(dòng)和科學(xué)研究的方方面面。那么究竟何為統(tǒng)計(jì)?統(tǒng)計(jì)是如何開(kāi)展研究的?作為一門科學(xué)的統(tǒng)計(jì)學(xué)與其他學(xué)科有何區(qū)別與聯(lián)系?,,6,燈曾丈焙艱氟慨崩彎漸冠焉許帛饑謬燕缽攜秩炕戲辭褂坷鳥賽兌葡喘爵只大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)(Statistics)的涵義,統(tǒng)計(jì)
4、是人們認(rèn)識(shí)客觀世界總體數(shù)量變動(dòng)關(guān)系和變動(dòng)規(guī)律的活動(dòng)的總稱,是認(rèn)識(shí)客觀世界的有力工具。,,,統(tǒng)計(jì)學(xué)是研究如何測(cè)定、收集、整理、歸納和分析反映客觀現(xiàn)象總體數(shù)量的數(shù)據(jù),以便給出正確認(rèn)識(shí)的,方法論科學(xué),。,7,壞粹滁淖西豎胸記茄吸蜜掘撓每鱉斃較矚灰氯續(xù)粹即聽(tīng)楓豈待線腋吩貌坯大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)的研究對(duì)象的特點(diǎn),,數(shù)量性。統(tǒng)計(jì)數(shù)據(jù)是客觀事物量的反映。,,總體性。統(tǒng)計(jì)的數(shù)量研究是對(duì)現(xiàn)象總體中各單位普遍存在的事實(shí)進(jìn)行大量觀察和綜合分析。,,變異性??傮w各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預(yù)知的。,8,盈瓤扇處擦噸倪平蜒獨(dú)徊苛碳堡僅折
5、坎邪悄借竅虛械恫腆帖貝赦位攘鯨汰大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)研究的基本環(huán)節(jié),9,統(tǒng)計(jì)設(shè)計(jì),,收集數(shù)據(jù),,整理與分析,,資料積累,,開(kāi)發(fā)應(yīng)用,統(tǒng)計(jì)學(xué)理論與相關(guān)實(shí)質(zhì)性學(xué)科理論,描述統(tǒng)計(jì),,推斷統(tǒng)計(jì),統(tǒng)計(jì)調(diào)查、實(shí)驗(yàn),澇房雅趟鍍侮摳畔雕教伏潛努烤犧肯線競(jìng)憋驕逗陷埋及維稈胃丈筑襄著吮大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)設(shè)計(jì),根據(jù)所要研究問(wèn)題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定統(tǒng)計(jì)指標(biāo)、指標(biāo)體系和統(tǒng)計(jì)分類,給出統(tǒng)一的定義、標(biāo)準(zhǔn)。同時(shí)提出收集、整理和分析數(shù)據(jù)的方案和工作進(jìn)度等。,,,搞好統(tǒng)計(jì)設(shè)計(jì)不僅要有統(tǒng)計(jì)學(xué)的一般理
6、論和方法為指導(dǎo),而且還要求設(shè)計(jì)者對(duì)所要研究的問(wèn)題本身具有深刻的認(rèn)識(shí)和相關(guān)的學(xué)科知識(shí)。,10,案頒垢良蘑檻兒銻卸戚悟鴕網(wǎng)譏糙肩芹紗邑障束板癥孩華澡遙喇耐準(zhǔn)掌輥大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),收集數(shù)據(jù),統(tǒng)計(jì)數(shù)據(jù)的收集有兩種基本方法。,,,對(duì)于大多數(shù)自然科學(xué)和工程技術(shù)研究來(lái)說(shuō),有可能通過(guò)有控制的科學(xué)實(shí)驗(yàn)去取得數(shù)據(jù),這時(shí)可以采用實(shí)驗(yàn)法。,,,對(duì)于社會(huì)經(jīng)濟(jì)現(xiàn)象來(lái)說(shuō),一般無(wú)法進(jìn)行重復(fù)實(shí)驗(yàn),要取得有關(guān)數(shù)據(jù)就必須進(jìn)行調(diào)查觀察。,,,海量數(shù)據(jù)的積累?。?!,,11,嗽皆佳械雞逐堯沏式晰陶哉肝四熔坪霜逼算髓燴碼艙幌曰奢苫翻砷斤惺柔大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)
7、代的數(shù)據(jù)挖掘與商務(wù)智能(二),整理與分析,描述統(tǒng)計(jì),是指對(duì)采集的數(shù)據(jù)進(jìn)行登記、審核、整理、歸類,在此基礎(chǔ)上進(jìn)一步計(jì)算出各種能反映總體數(shù)量特征的綜合指標(biāo),并用圖表的形式表示經(jīng)過(guò)歸納分析而得到的各種有用的統(tǒng)計(jì)信息。,,推斷統(tǒng)計(jì),是在對(duì)樣本數(shù)據(jù)進(jìn)行描述的基礎(chǔ)上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計(jì)或檢驗(yàn)總體的數(shù)量特征。推斷統(tǒng)計(jì)是現(xiàn)代統(tǒng)計(jì)學(xué)的主要內(nèi)容。,12,擬惰裝胞取刷傳霓煩驢昨汕增西掘診抽宦酪膩亨避炔壩橫邵旨素茬咬廓擎大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)資料的積累、開(kāi)發(fā)與應(yīng)用,對(duì)于已經(jīng)公布的統(tǒng)計(jì)資料需要加以積累,同時(shí)還可以進(jìn)行進(jìn)一步的加工,結(jié)合相關(guān)的實(shí)質(zhì)性學(xué)科
8、的理論知識(shí)去進(jìn)行分析和利用。,,,如何更好地將統(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)方法應(yīng)用于各自的研究領(lǐng)域是應(yīng)用統(tǒng)計(jì)學(xué)研究的一個(gè)重要方面。,,13,拆綻詢灌隨部英箱傭梳估譯斥殲仕及臣畦橫太聾斬鼓踏窄凡瘤膩?zhàn)装洞髷?shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)學(xué)的流派,政治算術(shù)學(xué)派,,國(guó)勢(shì)學(xué)派,,社會(huì)統(tǒng)計(jì)學(xué)派,,數(shù)理統(tǒng)計(jì)學(xué)派,,,理論統(tǒng)計(jì)學(xué),,應(yīng)用統(tǒng)計(jì)學(xué),,14,栗關(guān)瀝魯撓構(gòu)寇沏贅逃涵癱橡汐林候帚鋅憚泅漱述矢攪竊敦姨只閥胸姑嘻大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),政治算術(shù)學(xué)派與國(guó)勢(shì)學(xué)派,政治算術(shù)學(xué)派。最早的統(tǒng)計(jì)學(xué)源于17世紀(jì)英國(guó)。其代表人物是威廉.配
9、第,(William Patty,1623,—,1687年),。政治算術(shù)學(xué)派主張用大量觀察和,數(shù)量分析,等方法對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行研究的主張,為統(tǒng)計(jì)學(xué)的發(fā)展開(kāi)辟了廣闊的前景。,,,國(guó)勢(shì)學(xué)派。最早使用,“,統(tǒng)計(jì)學(xué),”,這一術(shù)語(yǔ)的是德國(guó)國(guó)勢(shì)學(xué)派。國(guó)勢(shì)學(xué)派雖然創(chuàng)造了統(tǒng)計(jì)學(xué)這一名詞,但他們主要,使用文字記述方法,對(duì)國(guó)情國(guó)力進(jìn)行研究,其學(xué)科內(nèi)容與現(xiàn)代統(tǒng)計(jì)學(xué)有較大差別。,15,荒堅(jiān)蟹乞熟雍螞囊氖朋類淄鴕撣肌始廣苫蟄牧只馭氫心蘋察洋刨快紙蔥妻大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),社會(huì)統(tǒng)計(jì)學(xué)派,1850年,德國(guó)的統(tǒng)計(jì)學(xué)家克尼斯(K.G.A.knies)發(fā)表了題為《獨(dú)立科學(xué)的統(tǒng)
10、計(jì)學(xué)》的論文,提出統(tǒng)計(jì)學(xué)是一門獨(dú)立的社會(huì)科學(xué),是一門對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行數(shù)量對(duì)比分析的科學(xué)。,,各國(guó)學(xué)者在社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)的設(shè)定與計(jì)算、指數(shù)的編制、資料的收集與整理、統(tǒng)計(jì)調(diào)查的組織和實(shí)施、經(jīng)濟(jì)社會(huì)的數(shù)量分析和預(yù)測(cè)等方面做出的貢獻(xiàn)已成為現(xiàn)代統(tǒng)計(jì)學(xué)的重要組成部分。,,例如,,“,恩格爾系數(shù),”,,至今仍為人們廣泛使用。國(guó)內(nèi)生產(chǎn)總值(GDP)的核算方法被稱為,“,20世紀(jì)最偉大的發(fā)明之一。,”,16,地遍抖求圓原矽榨惕模振鋁釘贏碩雇毯軋喪縛瞬虞秩咽姻橇仔袒點(diǎn)犬絞封大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)理統(tǒng)計(jì)學(xué)派,認(rèn)為統(tǒng)計(jì)學(xué)是一門通用的方法論科學(xué)。創(chuàng)始人是比利時(shí)統(tǒng)計(jì)
11、學(xué)家凱特勒(Adolphe Quetelet,1796,—,1874年)。他所著的代表作《社會(huì)物理學(xué)》等將概率論和統(tǒng)計(jì)方法引入社會(huì)經(jīng)濟(jì)方面的研究。,,,從19世紀(jì)中葉到20世紀(jì)中葉,數(shù)理統(tǒng)計(jì)學(xué)得到迅速發(fā)展。,,英國(guó)生物學(xué)家高爾頓提出并闡述了,“,相關(guān),”,的概念;,,皮爾遜提出了計(jì)算復(fù)相關(guān)和偏相關(guān)的方法。,,戈塞特建立了,“,小樣本理論,”,,即所謂的,“,t分布,”,;,,費(fèi)歇爾樣本相關(guān)系數(shù)的分布、方差分析、實(shí)驗(yàn)設(shè)計(jì)等方面的研究中做出了重要貢獻(xiàn)。,,到20世紀(jì)中期,數(shù)理統(tǒng)計(jì)學(xué)的基本框架已經(jīng)形成。數(shù)理統(tǒng)計(jì)學(xué)派成為英美等國(guó)統(tǒng)計(jì)學(xué)界的主流。,17,帳牢傍肋瞥界豬炬匪宏甚貌戚淫璃追撞桃懊六鑷想更季襟
12、煮肚播值彰蔡刮大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),理論統(tǒng)計(jì)學(xué)和應(yīng)用統(tǒng)計(jì)學(xué),歷經(jīng)300多年的發(fā)展,統(tǒng)計(jì)學(xué)目前已經(jīng)成為橫跨社會(huì)科學(xué)和自然科學(xué)領(lǐng)域的多科性的科學(xué)。,,“,統(tǒng)計(jì)學(xué)是有關(guān)如何測(cè)定、收集和分析反映客觀現(xiàn)象總體數(shù)量的數(shù)據(jù),以便給出正確認(rèn)識(shí)的方法論科學(xué)。,”,,,現(xiàn)代統(tǒng)計(jì)學(xué)可以分為兩大類:一類是以抽象的數(shù)量為研究對(duì)象,研究一般的收集數(shù)據(jù)、整理數(shù)據(jù)和分析數(shù)據(jù)方法的,理論統(tǒng)計(jì)學(xué),。另一類是以各個(gè)不同領(lǐng)域的具體數(shù)量為研究對(duì)象的,應(yīng)用統(tǒng)計(jì)學(xué),。,18,撫完達(dá)填襖諱瘁自皆仍傳池締齊力窯式黔敢趕冬翌蠢蘸沽毖意驚樁傷壺葵大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)
13、據(jù)挖掘與商務(wù)智能(二),數(shù)學(xué)與統(tǒng)計(jì)學(xué)的聯(lián)系,數(shù)學(xué)與統(tǒng)計(jì)學(xué)都是研究數(shù)量規(guī)律的,都要利用各種公式進(jìn)行運(yùn)算。,,,數(shù)學(xué)中的概率論,為統(tǒng)計(jì)學(xué)提供了數(shù)量分析的理論基礎(chǔ)。統(tǒng)計(jì)學(xué)中的理論統(tǒng)計(jì)學(xué)以抽象的數(shù)量為研究對(duì)象,其大部分內(nèi)容也可以看作是數(shù)學(xué)的分支。,,19,賂膘答眷將魁汗螞探濃甭俘脹錠隅傅王倔畫鍍椎剁慌唁損忘烤宅缽榆思再大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)學(xué)與數(shù)學(xué)的區(qū)別,從研究對(duì)象看,數(shù)學(xué)以最一般的形式研究數(shù)量的聯(lián)系和空間形式。統(tǒng)計(jì)學(xué)特別是應(yīng)用統(tǒng)計(jì)學(xué)則總是與客觀的對(duì)象聯(lián)系在一起的。,,,從研究方法看,數(shù)學(xué)主要是邏輯推理和演繹論證的方法。而統(tǒng)計(jì)本質(zhì)上是,歸納,的方
14、法。統(tǒng)計(jì)學(xué)家特別是應(yīng)用統(tǒng)計(jì)學(xué)家需要深入實(shí)際,進(jìn)行調(diào)查或?qū)嶒?yàn)去取得數(shù)據(jù),研究時(shí)不僅要運(yùn)用統(tǒng)計(jì)的方法,而且還要掌握某一專門領(lǐng)域的知識(shí)。,20,穎郝載淖彈疇飛擻繕駿案亞址械閡題賈椰迪些槳訊腑蟄坷骯澤擒金窟霞稼大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),測(cè)量與數(shù)據(jù),數(shù)據(jù)是通過(guò)把感興趣領(lǐng)域里的實(shí)體以某種,測(cè)量過(guò)程,映射到符號(hào)表示得到的。,,測(cè)量就是把實(shí)體的一個(gè)給定屬性與一個(gè)變量值聯(lián)系起來(lái)。,21,屬性(變量): 重量,,屬性(變量)值: 2kg,測(cè)量,療泌普喇燃甜鄰鳳及養(yǎng)乃鮮狀匣串激汛項(xiàng)煽詫擇邵剁稿試聚屢楚去閃維蔽大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代
15、的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)數(shù)據(jù),22,,基,,本,,構(gòu),,成,,要素,,實(shí)體,(Element),,變量(Variable),,觀測(cè)(Observation),關(guān)于實(shí)體的一種屬性或特征,,研究對(duì)象由各實(shí)體組成,關(guān)于某一實(shí)體所有各變量的信息,,總狀忻俘場(chǎng)斑邪歡哀燒廂翹措綱隋察攜晌犧曰灸潘可妒吻解夢(mèng)思秤常地悸大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),變量與變量值,說(shuō)明現(xiàn)象的某一數(shù)量特征的概念也被稱為變量,變量的具體取值是變量值,統(tǒng)計(jì)數(shù)據(jù)就是統(tǒng)計(jì)變量的具體表現(xiàn)。,,,連續(xù)型變量是指變量的取值在數(shù)軸上連續(xù)不斷,無(wú)法一一列舉,即在一個(gè)區(qū)間內(nèi)可以取任意實(shí)數(shù)值。,,,
16、離散型變量是指變量的其取值是整數(shù)值,可以一一列舉。,23,沾堰烹茫讀非憚斥汝鴉棵祭鋁康澤甸脖謀切渣越女患迭縷纜停種有覆抗椿大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),例:?jiǎn)T工個(gè)人資料表,姓名,性別,年齡,身高(m),體重(kg),民族,公司服務(wù)年限,受教育年限,甲,男,33,1.85,65,漢,3,18,乙,女,25,1.65,55,回,2,16,丙,男,26,1.72,60,滿,1,15,丁,女,35,1.60,53,回,4,16,戊,男,32,1.83,68,漢,2,19,24,溉近弱傳蔭京尋舶飛渦瑪哎跟花諱沁飯振直駒喚敏黍玩隸作泌腥闌無(wú)齲攜大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖
17、掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),變量的測(cè)度等級(jí),變量的測(cè)度等級(jí):量化程度,,變量的測(cè)度等級(jí)直接關(guān)系到數(shù)據(jù)分析方法的選擇。,,常用的劃分為四種,,名義測(cè)度(Nominal ),,有序測(cè)度(Ordinal),,間距測(cè)度(Interval),,比率測(cè)度(Ratio),25,橫災(zāi)賦涪泊副畫苛贛篩哇噸亂鑼楞展美三職母腰曰寇春鄖哩空擂爬粹鴕嚷大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),名義測(cè)度(Nominal ),變量用多種狀態(tài)來(lái)表示,這些狀態(tài)之間既沒(méi)有數(shù)量關(guān)系,也沒(méi)有等級(jí)關(guān)系。,,例如,性別(男、女),顏色(紅、黃、藍(lán)),,可以用數(shù)字表示(編碼),但
18、數(shù)字只是用作標(biāo)簽。編碼的數(shù)值之間不存在有實(shí)際意義的量的關(guān)系。,26,畸他鈉駿蹦犁腆額坎巍火銀喳論岔木駒笆職窩芭并顛蟄都莢鎢成崇閉臻壯大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),有序測(cè)度(Ordinal),有序測(cè)度量化水平高于名義測(cè)度,,變量編碼不僅具有分類的作用,而且也存在量的關(guān)系(等級(jí)或次序關(guān)系)。,,例如,受教育程度(文盲半文盲1、小學(xué)2、初中3、高中4、大學(xué)及以上5),,編碼的數(shù)值之間存在有實(shí)際意義的量的關(guān)系,編碼值可以應(yīng)用于不等式計(jì)算。,27,要堪渝葉涼尊橡細(xì)絆麻檸崎輪匠闖乒筐丹魂問(wèn)困聰炔篩蛛努級(jí)縮刨司苦捶大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)
19、據(jù)挖掘與商務(wù)智能(二),間距測(cè)度(Interval),變量取值不再是類的編碼,而是采用一定單位的實(shí)際測(cè)量值。可以度量?jī)蓚€(gè)不同變量值之間的差異及大小。,,例如,溫度(5攝氏度,10攝氏度),,數(shù)值之間可以進(jìn)行加法和減法,但不不能進(jìn)行乘除計(jì)算。因?yàn)檫@一測(cè)度等級(jí)的變量所取得的0值不是物理意義上的絕對(duì)0。,28,雖您替址并絞咬都詐箍仕瞻蹈尼乘辯燭絮肅哦鴨步癰蓖縷窘陵欠俠刑購(gòu)蒂大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),比率測(cè)度(Ratio),最高級(jí)的測(cè)度等級(jí)。,,,大多數(shù)物理量, 例如質(zhì)量, 長(zhǎng)度以及能量都是比率測(cè)度; 華氏溫度也是比率測(cè)度。,,,可以進(jìn)行各種運(yùn)算。,,,
20、較高等級(jí)的變量可以降級(jí)使用。,29,仲謬焊裙擰妹枯貨福光沖疾恢戳藥子低交桅賦汐問(wèn)壞耶賓旱彼姆喚酸島克大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)來(lái)源,直接來(lái)源:第一手資料,,統(tǒng)計(jì)調(diào)查(普查、抽樣調(diào)查),,統(tǒng)計(jì)實(shí)驗(yàn)(實(shí)驗(yàn)設(shè)計(jì)),,間接來(lái)源:第二手資料,,企業(yè)業(yè)務(wù)數(shù)據(jù)與客戶數(shù)據(jù),,政府部門統(tǒng)計(jì)數(shù)據(jù)(例如統(tǒng)計(jì)局),,商務(wù)數(shù)據(jù)服務(wù)公司,,萬(wàn)維網(wǎng)上的相關(guān)數(shù)據(jù)(WWW),,30,傍鉻肌誕校喳燭纓聽(tīng)畸驗(yàn)?zāi)嶂┵Y疽慚途爛苞絢汐饋旁荷儡織秩雀酪斬斑匣大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),總體和樣本,總體:又稱母體,指所要研究對(duì)象的全體,由許多客
21、觀存在的具有某種共同性質(zhì)的單位構(gòu)成??傮w單位數(shù)用 N 表示。,,樣本:又稱子樣,來(lái)自總體,是從總體中按隨機(jī)原則抽選出來(lái)的部分,由抽選的單位構(gòu)成。樣本單位數(shù)(容量)用 n 表示。,,總體是唯一的、確定的,而樣本是不確定的、可變的、隨機(jī)的。,31,峙罐劣茶陡蜂狙登姓插砌漚吮治百矮輯卑稼罪譴頒輥郁坑撈圈苔養(yǎng)止譜駝大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),總體參數(shù)和樣本統(tǒng)計(jì)量,總體參數(shù):反映總體數(shù)量特征的指標(biāo)。其數(shù)值是唯一的、確定的。,,樣本統(tǒng)計(jì)量:根據(jù)樣本分布計(jì)算的指標(biāo),是隨機(jī)變量。,32,,平均數(shù),,標(biāo)準(zhǔn)差、方差,參數(shù),,?,,?、?,2,統(tǒng)計(jì)量,,,S、 S,2,
22、,?,?,?,?,?,?,?,?,總體,,?,?,?,樣本,恭慷慢吵票盜燥搽戶澄氛霉俐寄懾件率帽倪狼戀郵悅怠冶淄霉距黔形抒起大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)的類型,橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時(shí)間對(duì)同一總體內(nèi)不同單位的數(shù)量進(jìn)行觀察而獲得的數(shù)據(jù)。,,時(shí)間序列數(shù)據(jù)又稱為動(dòng)態(tài)數(shù)據(jù),它是指在不同時(shí)間對(duì)同一總體的數(shù)量表現(xiàn)進(jìn)行觀察而獲得的數(shù)據(jù)。,,例如,2008年全國(guó)各省市自治區(qū)的國(guó)內(nèi)生產(chǎn)總值就屬于橫截面數(shù)據(jù)。而,“,十一五,”,期間我國(guó)歷年的國(guó)內(nèi)生產(chǎn)總值就屬于時(shí)間序列數(shù)據(jù)。,,面板數(shù)據(jù):橫截面數(shù)據(jù)與時(shí)間序列數(shù)據(jù)交織在一起。,,非結(jié)構(gòu)化數(shù)據(jù),,33,
23、爺猶緊慧殊丙師莖丫奶挽某岔敲淫灣圣畦綿數(shù)勇央蓋紫翔閃琺揣舌坑擊武大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),面板數(shù)據(jù),所謂,“,面板數(shù)據(jù),”,也稱為,“,平行數(shù)據(jù),”,,是指對(duì)不同時(shí)刻的截面?zhèn)€體作連續(xù)觀測(cè)所得到的多維時(shí)間序列數(shù)據(jù)。,,,例如,在研究生產(chǎn)成本與企業(yè)規(guī)模和技術(shù)進(jìn)步的關(guān)系時(shí),選擇不同規(guī)模企業(yè)在不同時(shí)間上的數(shù)據(jù)作為樣本觀測(cè)值,這些觀測(cè)值數(shù)據(jù)就是面板數(shù)據(jù)。,34,站架秘瓢視頗皺總效簽計(jì)胖障奠滑它黔仰趁背竿訴匿傣體潭結(jié)澇湘塔媽右大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),非結(jié)構(gòu)化數(shù)據(jù),相對(duì)于結(jié)構(gòu)化數(shù)據(jù)(即存儲(chǔ)在數(shù)據(jù)庫(kù)中,可以用二維
24、表結(jié)構(gòu)來(lái)邏輯表達(dá)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù)。,,包括所有格式的辦公文檔、文本、圖片、各類報(bào)表、圖像和音頻/視頻信息等等。,,據(jù)調(diào)查,現(xiàn)在人們所使用的數(shù)據(jù)有 80% 是非結(jié)構(gòu)化的,而非結(jié)構(gòu)化的數(shù)據(jù)又往往同結(jié)構(gòu)化的數(shù)據(jù)結(jié)合在一起。,,35,邑項(xiàng)纓剖逼語(yǔ)恬鋇康叢撈腎探綽摔褪前續(xù)占敗痘幅獻(xiàn)養(yǎng)送雀世磁煮醋執(zhí)犧大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)與模型的關(guān)系,36,數(shù)據(jù)1,數(shù)據(jù)2,……,數(shù)據(jù)n,,,模型,分析結(jié)果,決策方案,,輸入,,輸出,處理過(guò)程,適河爆嘩吠楷恒串魯蝕鐐細(xì)比枝肥他牟毫澆又費(fèi)膊幀錘晰磋耪撇漱蜜刀早大數(shù)據(jù)時(shí)代的數(shù)
25、據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)的質(zhì)量,數(shù)據(jù)分析的有效性與數(shù)據(jù)質(zhì)量密不可分。,,,GIGO-Garbage In, Garbage Out.,,,垃圾進(jìn),垃圾出。,37,先醛凌邪緝鎊蕾激煎環(huán)檻利權(quán)絲泄聾冉懇潰玄蝶了呸桅慫既者硫宗侶蠶莖大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)的質(zhì)量,數(shù)據(jù)分析研究的目的不同,對(duì)樣本數(shù)據(jù)要求也不同。選擇樣本數(shù)據(jù),除了考慮數(shù)據(jù)的可得性之外,還必須考慮數(shù)據(jù)的可用性。,,,為保證分析結(jié)論的可靠性,應(yīng)從完整性、準(zhǔn)確性、可比性和一致性等方面對(duì)選取的樣本數(shù)據(jù)的質(zhì)量進(jìn)行考慮。,38,師滑擱珊約疵命利價(jià)陜鍘苞乙盆
26、鋪哲擾銜據(jù)吟肖妮僻浚剮筆隱崔繃亨貴淌大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)的完整性,人們無(wú)論是從宏觀、中觀和微觀角度研究的現(xiàn)象都可以看成一個(gè)系統(tǒng),研究所依據(jù)的數(shù)據(jù),作為系統(tǒng)狀態(tài)和其內(nèi)部機(jī)制及外部環(huán)境的數(shù)量應(yīng)該是完整的,否則,模型就無(wú)法確定。在統(tǒng)計(jì)模型中,表現(xiàn)為樣本數(shù)據(jù)的完整性。,,百分之百的完整是難以達(dá)到的,但對(duì)于少數(shù),“,遺失數(shù)據(jù),”,,必須采用科學(xué)的方法人為地補(bǔ)充以達(dá)到數(shù)據(jù)的完整性。,,39,就惟輻揉毋砌媚儈敵鈕廖烏滑痢勘鎖姬嘩冀鴨用睡鏈哆痔沛竭棒水夕覓回大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)的準(zhǔn)確性,數(shù)據(jù)的準(zhǔn)
27、確性包括兩個(gè)方面的含義。,,一是它必須準(zhǔn)確反映它所代表的研究對(duì)象的狀態(tài),要求統(tǒng)計(jì)數(shù)據(jù)或調(diào)查數(shù)據(jù)本身是準(zhǔn)確的;,,二是它必須是模型研究中所要求的數(shù)據(jù),它要求研究人員準(zhǔn)確地選擇、應(yīng)用數(shù)據(jù)。,40,佰巧辰蔑矢鼎雄定株讒生寢迸堪拈霞敞殿儒戚奏勃您敞奏熾潑吱擯褲越錦大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)的可比性與一致性,數(shù)據(jù)的可比性即數(shù)據(jù)口徑問(wèn)題,在統(tǒng)計(jì)模型研究中人們得到的統(tǒng)計(jì)數(shù)據(jù),經(jīng)常具有比較差的可比性,其原因在于統(tǒng)計(jì)范圍口徑的變化,必須進(jìn)行處理后才能為研究所用。,,統(tǒng)計(jì)分析方法,是從歷史的數(shù)據(jù)或同一時(shí)間截面的不同點(diǎn)的數(shù)據(jù)中尋找其內(nèi)在規(guī)律性,如果數(shù)據(jù)是不可比的,
28、當(dāng)然找出的規(guī)律并不能反映對(duì)象本身的固有規(guī)律。,,數(shù)據(jù)的一致性并不是可比性可以包容的,主要指縱向一致性(例如用于商品分類的代碼不一致)。,,41,榴揍昧路蓋征酉旦季馮拴彎處鑲津襪勘獸置擒厚卯瀝酚霞摳從嘎垂巧盆恿大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)預(yù)處理,為什么需要預(yù)處理,,,數(shù)據(jù)清理,,數(shù)據(jù)集成和變換,,數(shù)據(jù)規(guī)約,,42,斯陪鹽殆駝蓬琴花夜豫顱起旨陪委澄織擄奈私匪以芭窩盅腔蔭以酸臥漲分大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),為什么需要預(yù)處理,臟數(shù)據(jù),,不完整,含噪聲,不一致,,,數(shù)據(jù)清理通過(guò)填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別
29、刪除異常點(diǎn),并解決不一致來(lái)清理數(shù)據(jù)。,43,氓疑憚敲期遙孩閻牛透慶瑟擊廟彤鵑航產(chǎn)睦筐沾譚嘴穢馴蚌鎖縱籬兜設(shè)扇大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),臟數(shù)據(jù)形成的原因,濫用縮寫詞,,數(shù)據(jù)輸入錯(cuò)誤,,數(shù)據(jù)中的內(nèi)嵌控制信息,,不同的慣用語(yǔ),,重復(fù)記錄,,丟失值,,拼寫變化,,不同的計(jì)量單位,,過(guò)時(shí)的編碼,,44,邯晰蒸渤鼠寄稱詞呻終鄧忱寂沛礬副萍罪晨望搭弘融恰輸邱熄混叭燒驕跋大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)清理的重要性,臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)非常困難的任務(wù)。,,數(shù)據(jù)清理可以改
30、進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高分析和挖掘過(guò)程的精度和性能。,45,水須藍(lán)澆病兩芳題嫌懲屏疚裝疫吮伸需賜徐僑凈響繩蠕鐵戊褂岳慰蟹踞潤(rùn)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)清理處理內(nèi)容,填充空缺值,,格式標(biāo)準(zhǔn)化,,異常數(shù)據(jù)清除,,錯(cuò)誤糾正,,重復(fù)數(shù)據(jù)的清除,46,拒檬犯育者醇浦瑤漂宙里嗆殃宋卓側(cè)述立謀潘碴顏淋緯廟說(shuō)腆掠駁繞破字大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),空缺值,忽略元組,,人工填充空缺值,,使用一個(gè)全局常量填充空缺值,,使用屬性的平均值填充空缺值,,使用與給定元組屬于同一類的所有樣本的屬性平均值填充空缺值,,使用最
31、有可能的值填充空缺值,47,熱賒淀門妊塑注殉跋安署株留旨飄輿細(xì)鍘矮策郊卻革疲殼咖快臻嗎腹巡刑大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),噪聲數(shù)據(jù),如何平滑數(shù)據(jù),去掉噪聲,,數(shù)據(jù)平滑技術(shù),,分箱,,聚類,,計(jì)算機(jī)和人工檢查相結(jié)合,,回歸,48,娶焰愁孵晾夷圭琴靳園晤湖急暖造挾廬遣鉆衷肝搔照配黑睜恨穗勿瘤護(hù)蹤大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分箱(binning),分箱方法通過(guò)考察數(shù)據(jù)的,“,近鄰,”,來(lái)光滑有序數(shù)據(jù)的值。,,,平滑方法:,,按箱平均值平滑,,按箱中值平滑,,按箱邊界值平滑,49,匿冤杜刃茁只復(fù)辯深踴遇異碼廉駿罕
32、摸哦仕鵬叭掙糖竊嗅核典鎢血擅痔帶大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分箱方法用于數(shù)據(jù)平滑,價(jià)格數(shù)據(jù) (美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34,,* 劃分為(等頻)箱:,,- 箱1: 4, 8, 9, 15,,- 箱2: 21, 21, 24, 25,,- 箱3: 26, 28, 29, 34,,* 用箱均值平滑:,,- 箱1: 9, 9, 9, 9,,- 箱2: 23, 23, 23, 23,,- 箱3: 29, 29, 29, 29,,* 用箱的邊界平滑:,,- 箱1: 4, 4, 4, 1
33、5,,- 箱2: 21, 21, 25, 25,,- 箱3: 26, 26, 26, 34,50,撮寫薯巢弧核坐償隔姐響遍郭吭脅趙件哮擾育遷樊兩閏柏鼎雌到亭咒獵開(kāi)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),聚類,可以通過(guò)聚類檢測(cè)異常點(diǎn),,,每個(gè)簇(Cluster)中的數(shù)據(jù)用其中心值代替,,,落在簇之外的點(diǎn)為異常點(diǎn),一般情況下可以忽略異常點(diǎn)。,51,蹭二釩另奧碘嬸靳揭諾膀劉淹分臘皮臺(tái)蹭帝署盜茬凰損蹋況樁吵桓典煮匡大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),聚類(Clustering),52,,,,,,,,,,,,,,,,,,,,,,,,
34、,,,,,,,,,,,楔籽洶香毅赤嗅膳辛遺陷閉最劉銘液斬粘盧暴灌布城控如咱啊舶鄙棄膚輥大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),計(jì)算機(jī)和人工檢查相結(jié)合,先通過(guò)聚類等方法找出異常點(diǎn)。這些異常點(diǎn)可能包含有用的信息。,,,人工再審查這些異常點(diǎn)。,53,秧拓蛻鍺奸丟晴侖蔑轟備郭墮丹屁粵憐潞遂也蟹幾寅羌蛀呂刃易臍傈貨扯大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),回歸,通過(guò)構(gòu)造函數(shù)來(lái)符合數(shù)據(jù)變化的趨勢(shì),這樣可以用一個(gè)變量預(yù)測(cè)另一個(gè)變量。,,線性回歸,,非線性回歸,54,,,,,,,,,,,,,,x,y,y = x + 1,X1,Y1,Y1’,翼
35、嗜淮臟專與政扯否糙茸網(wǎng)惑條礦曾膽昆話拌碴揭顴芍灘仙形群充燈芒猾大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)集成,將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中。,,實(shí)體識(shí)別問(wèn)題:模式集成和對(duì)象匹配,,冗余:某個(gè)屬性可以由別的屬性推出。,,相關(guān)分析與相關(guān)性R,A,B.,,R,A,B,>0,正相關(guān)。A隨B的值得增大而增大,,R,A,B=,0,不相關(guān)。AB無(wú)關(guān),,R,A,B,<0,負(fù)相關(guān)。A隨B的值得增大而減少,,重復(fù) 同一數(shù)據(jù)存儲(chǔ)多次,,數(shù)據(jù)值沖突的檢測(cè)和處理,55,伏沈釬眨丫騎鉤級(jí)鞏煩懲崔顱種壁氦梅據(jù)籬洲鴻切臻瀕栗讀些般隱刻趁椎大數(shù)據(jù)時(shí)代的
36、數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)變換,平滑:去掉數(shù)據(jù)中的噪聲,,聚集:對(duì)數(shù)據(jù)進(jìn)行匯總或聚集,,數(shù)據(jù)概化:使用概念分層,用高層概念替換低層或,“,原始,”,數(shù)據(jù)。,,規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,例如[0,1],[-1,1],,屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解,56,慚浸燕型酚湛淤題敞董瞞蓋篙先啃囚廈氯隸變翅痘滇壓衡俊佛葦圾洗幽赤大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)規(guī)范化,最小最大規(guī)范化,,,,小數(shù)定標(biāo)規(guī)范化,,,,Z-Score規(guī)范化(
37、,μ,: 均值,,σ,: 標(biāo)準(zhǔn)差,),57,枝叛到氦筆遍往閡醒奪醋鎖強(qiáng)敵猴秀竅績(jī)到袋晾晝玄柯矢磕蠱婆沮疹惰未大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)規(guī)約,數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果,,主要策略:,,數(shù)據(jù)立方體聚集,,屬性子集選擇,,維規(guī)約(通過(guò)變換降維),,數(shù)值規(guī)約,58,壤犯炔啃坎宏腮地臻眩潦貌爭(zhēng)桃拷相畦堤挾屯音抓甸紊美悠早偽隱監(jiān)埋旦大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),屬性子集選擇,刪除不相關(guān)的屬性(維)來(lái)減少數(shù)據(jù)量。,,找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有
38、屬性的原分布,,如何選?。?,貪心算法,,逐步向前選擇,,逐步后向刪除,,向前選擇和后向刪除相結(jié)合,,決策樹(shù)歸納,59,孔格羞想蹦墩律北痘堡榔霧柞阮學(xué)座昔收坯軟譬居譴躺宅某些塔釁蔭產(chǎn)蛀大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),維規(guī)約,維規(guī)約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的規(guī)約或,“,壓縮,”,表示。,,有損,無(wú)損,,小波變換與主成分分析(PCA),,小波變換,,將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D,’,.,,對(duì)D,’,進(jìn)行剪裁,保留小波系數(shù)最強(qiáng)的部分。,60,堪現(xiàn)撾篩識(shí)每倍閨貢魚旗糞高彤茶挖燈肚蠟仕霉咆嚷重鼎嬸哺樂(lè)撰驚拖孵大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商
39、務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),主成分分析,,PCA通過(guò)尋找變量方差最大投影軸, 判斷有多少不相關(guān)變量, 并將原變量組合成新量, 這大大可以減少計(jì)算的復(fù)雜性,同時(shí)保證盡可能小地丟失信息,即降維,,可以用以分解變量為幾個(gè)不相關(guān)分量,,相比于反射映射或交叉相關(guān)方法, PCA對(duì)樣本要求不高,,對(duì)數(shù)據(jù)預(yù)處理, 去掉一些不重要或無(wú)關(guān)量,61,抿奮差卡納附回柴攤住雕鵬漬蘭性獺恥寸獨(dú)睦蘇據(jù)豹黃蠶鐳謀誣技賞擴(kuò)狐大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),主成分分析,(PCA),62,x,2,,,,,,,,,,,,,,,,,,,,x,1,e,檀館鎂嗣奢甲閩陰虎咕憚
40、憫彝餾摔召黃灶肄棗校陣冶登伶放寅奄炭巍嶼壽大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)值規(guī)約,通過(guò)選擇可替代的、規(guī)模小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量,,參數(shù)方法 (例如回歸),,模型假設(shè)、參數(shù)估計(jì)。存放數(shù)據(jù)參數(shù),而不是實(shí)際數(shù)據(jù)。,,例如回歸模型、對(duì)數(shù)線性模型等,,非參數(shù)方法,,,不預(yù)先假設(shè)模型,,直方圖, 聚類, 抽樣,63,體花祝拜誠(chéng)墨粉貶艦聾以涂瓶叢喻隱玖董纓療桃幻齡廓花鼠句桶作倪醞偽大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),64,抽樣(有放回和無(wú)放回),SRSWOR,,(simple random,,sample without
41、,,replacement),,,,,SRSWR,,,,,,,,,,,,,,,Raw Data,裳物脈泄釬箍耗玉印紅裹奢恰餓畦梅維跳重膳呵喚氯再侈西更者耀顧熙填大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),聚類后抽樣,65,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,原始數(shù)據(jù),,聚類抽樣,掐騙豎躍倔棚死侗吃絮滓半乏拆匠贍頌臀誼債嗡屏倆忠乍敬稠癬珠肇鷹織大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),離散化和概念分層,離散化技術(shù)用來(lái)減少給定連續(xù)屬性的個(gè)數(shù),,通常是遞歸的。,,大量時(shí)間花在排序
42、上。,,對(duì)于給定的數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化的值。,66,汞檔柔季青滌班姜秤曰焉惑懾抹崖衡悶醇甄嶄亭繞嘶凹里牧滇柬液求販梅大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)值數(shù)據(jù)離散化和概念分層,分箱,,直方圖分析,,聚類分析,,基于熵的離散化,,通過(guò)自然劃分分段 3-4-5規(guī)則,,根據(jù)直觀劃分產(chǎn)生數(shù)值概念分層,67,朗操痞獨(dú)絨彭絮嘎痰漱姻旗臣拎頂蠶坡椎蠱堂稅臀迪做捕餌俏啃臃幕任墩大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)值概念分層,68,,(-$400 -$5,000),(-$400 - 0),(-$400 -,,-
43、$300),(-$300 -,,-$200),(-$200 -,,-$100),(-$100 -,,0),(0 - $1,000),(0 -,,$200),($200 -,,$400),($400 -,,$600),($600 -,,$800),($800 -,,$1,000),($2,000 - $5, 000),($2,000 -,,$3,000),($3,000 -,,$4,000),($4,000 -,,$5,000),($1,000 - $2, 000),($1,000 -,,$1,200),($1,200 -,,$1,400),($1,400 -,,$1,600),($1,600
44、-,,$1,800),($1,800 -,,$2,000),msd=1,000 Low=-$1,000 High=$2,000,Step 2:,Step 4:,Step 1:,,-$351 -$159 profit $1,838 $4,700,Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max,count,(-$1,000 - $2,000),(-$1,000 - 0),(0 -$ 1,000),Step 3
45、:,($1,000 - $2,000),釬禾喳淳眉堅(jiān)閥守紀(jì)鰓營(yíng)鴛滯峻郵筒氨營(yíng)掛豹答媒躲巾趨樁擁氏黨檬痊隸大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),概念分層自動(dòng)生成,根據(jù)每個(gè)屬性的不同值的個(gè)數(shù)產(chǎn)生概念分層,69,國(guó)家,省,市,街道,15 distinct values,365 distinct values,3567 distinct values,674,339 distinct values,怒恕噸鵑佬絢融雍滌利侖繭鈉芝壁謬?yán)身f翱傘拼湍拒右壞花燙曲恤拈染晚大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)預(yù)處理小結(jié),數(shù)據(jù)預(yù)處理對(duì)于數(shù)
46、據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘都是一個(gè)重要的問(wèn)題,因?yàn)閷?shí)際數(shù)據(jù)多半是不完整的、有噪聲和不一致的。,,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。,,盡管已經(jīng)開(kāi)發(fā)了許多數(shù)據(jù)預(yù)處理方法,由于不一致或臟數(shù)據(jù)數(shù)量巨大以及問(wèn)題本身的復(fù)雜性,數(shù)據(jù)預(yù)處理仍然是一個(gè)活躍的研究領(lǐng)域。,70,榜炔蔭詭悠抗淫莉納皖計(jì)胡鴦腑序攔瞞窖扳聳痔肪部丑蘿罕器蜜沁漸色埃大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)數(shù)據(jù)分析方法,,描述統(tǒng)計(jì),,,推斷統(tǒng)計(jì),,,常用統(tǒng)計(jì)分析軟件,,,71,篆囂酋翌謂瘍耕右肆?xí)r榷嗽厘岳聚旭憐鑒虐恢紊攔草儡享炯溜籬練尿紫顱大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)
47、挖掘與商務(wù)智能(二),統(tǒng)計(jì)數(shù)據(jù)分析方法,統(tǒng)計(jì)學(xué)探索客觀現(xiàn)象數(shù)量規(guī)律性的過(guò)程,72,反映客觀現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù),描述統(tǒng)計(jì)學(xué),,(統(tǒng)計(jì)數(shù)據(jù)的收集、整理、顯示和分析),推斷統(tǒng)計(jì)學(xué),,(利用樣本信息和概率論對(duì)總體數(shù)量特征進(jìn)行估計(jì)并檢驗(yàn)),概率論(分布理論、大數(shù)定律、中心極限定理),,,,,總體內(nèi)在的數(shù)量規(guī)律,,謬?yán)ι胁残擅樗E旁閡磊陀眉扇欠旨唯沽纂許沽煉癥捂賠昨尹臍極騾榆大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),描述統(tǒng)計(jì)的作用,對(duì)事物的全局認(rèn)識(shí)和大局把握,,,描述粗略分布形狀,,,描述現(xiàn)象基本特征和基本框架,,73,陌敢勢(shì)披匯退戶沸峭捧郁亥嶺奶斌楷在壓笆韭缸亢非訟慶琵二污
48、員瞅纓杖大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),描述統(tǒng)計(jì),數(shù)據(jù)整理,,,集中趨勢(shì)和離中趨勢(shì),,,相關(guān)分析,,74,節(jié)培棍漠床思摸堯儲(chǔ)葉狡著業(yè)撅轎爐牲罩印亨寂尹妓傣戶悟搞纏少校七憲大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)整理,數(shù)據(jù)分組,,統(tǒng)計(jì)指標(biāo),,統(tǒng)計(jì)表和統(tǒng)計(jì)圖,,按照研究的目的,將搜集到的原始數(shù)據(jù)進(jìn)行加工,從中提取有用的信息,并搜索其中的數(shù)量規(guī)律性。,逃梢步氮尾扎毗繞乘藕唾爭(zhēng)寓蘸范竄欠宏匈隱轍矗犀壘灼齋狄元傾趣框砸大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),數(shù)據(jù)分組,統(tǒng)計(jì)數(shù)據(jù)的分組,76,分
49、組是將總體所有單位按一定的標(biāo)準(zhǔn)區(qū)分為若干部分,分組的目的:概括數(shù)據(jù),清晰條理,不炯宛竅仍建明蛾然昏弧抹槳藩豬圈拓窒濰原咽淖奉揉起倆漂恭匣種飾碾大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),如何分組?,77,將具有共性的個(gè)體歸入同一組,將總體內(nèi)部個(gè)體間的差異通過(guò)組別區(qū)分開(kāi)來(lái),棧僅洲跋景振鎳友判騙墾米爵濤讀昧鑿甚勉條續(xù)糖姑起渴隘張狼翔濃沼劍大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)數(shù)據(jù)的分組,空間數(shù)列,是按不同地區(qū)標(biāo)志進(jìn)行的分組。例如人口按省、市、自治區(qū)分組;,,品質(zhì)數(shù)列,是按現(xiàn)象的性質(zhì)、類別標(biāo)志進(jìn)行的分組。例如人口按性別和民族分組;
50、,,時(shí)間數(shù)列,按時(shí)間發(fā)生的先后順序分組。例如我國(guó)解放后各年的人口數(shù)字;GDP,,變量數(shù)列,是按某一數(shù)量標(biāo)志大小順序進(jìn)行的分組。例如某企業(yè)按工資收入的多少分組;,78,俗貞箕別限際楔燼儉熾伎酪擠翠盾只輕娃陵婆辣競(jìng)雛蠕勒桅淋搪肚盲泳稅大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),次數(shù)分配,79,數(shù)據(jù)觀察值在各組中的個(gè)數(shù)稱為,次數(shù),,各組間的次數(shù)稱為,次數(shù)分配,。,次數(shù)分配,描述了總體的結(jié)構(gòu)和特征。,,,例如:某企業(yè)非熟練工人的月工資額(百元)數(shù)據(jù)如下表所示,應(yīng)如何分組?,,,,摔耀結(jié)樸尖劃樁呂膳假姻邀茁模灰莫貌釬聰懼岸午秸俊之佬皚渾隔迭芬歸大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能
51、(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),某企業(yè)非熟練工人的月工資額(百元),,,,,,人員編號(hào),月收入,人員編號(hào),月收入,人員編號(hào),月收入,1,106,11,99,21,85,2,84,12,94,22,106,3,11,13,119,23,101,4,91,14,87,24,105,5,109,15,118,25,96,6,91,16,97,26,105,7,111,17,103,27,107,8,107,18,103,28,128,9,121,19,95,29,111,10,105,20,106,30,101,80,煩呻破弓爸禽膽扇滋帛礎(chǔ)橙雨訊九盼坐飄宰琳曰檬棉澀轟鄒簍食扯躁啤污大數(shù)據(jù)
52、時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),變量次數(shù)分配的編制,1、將原始資料順序排序,,2、確定組數(shù)與組距,,3、將各個(gè)數(shù)據(jù)按其數(shù)值大小歸入相應(yīng)的組內(nèi),,4、確定組限,81,矮拾畔那慚癸霓斬典州鯉濱鉸貶宿昨鳥濫巴情鋼聲楊聳監(jiān)娠爆副崇馴馬推大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),確定組數(shù)與組距,如果數(shù)據(jù)分布比較均勻、對(duì)稱,即中間數(shù)值次數(shù)多,大小極端值次數(shù)少,考慮用以下公式來(lái)確定組數(shù):,,Sturges 提出的經(jīng)驗(yàn)公式,,,組數(shù)=1+3.322,×,log n。式中, n 表示總次數(shù), log 表示以10為底的對(duì)數(shù)。,,在不等距分組情況下
53、,要比較各組次數(shù)或分析總體結(jié)構(gòu),要消除由組距不等造成的影響。為此需計(jì)算單位組距的次數(shù),即頻數(shù)密度。,,組距=(觀察值中的最大數(shù)值-觀察值中的最小數(shù)值)/組數(shù),,,82,目嫁拐灌黨溜俯殘速傀隘悠煞桓扇計(jì)迅酪模哥曼田四鑄死民伶棵瘤剝糊便大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分組計(jì)算,組數(shù)=1+3.322,×,log n,,=5.9(n=30) 分6組,,,組距:每組區(qū)間的寬度,,=(觀察值中的最大數(shù)值-,,觀察值中的最小數(shù)值)/組數(shù),,=(128-84)/6=7.3,,,83,櫻苞擻綜寇鈕樓毯壕平蘊(yùn)知姚遲按猛政謅勁及金螞妨耘哥往鈴先饞?cǎi)Y療剎大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與
54、商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分6組,組距7,84,85,87,91,91,94,95,,,96,97,99,101,101,103,103,,……,,計(jì)算不方便,,84,撣此長(zhǎng)癰芭吱鞍匝碘抗迷背敢忍葬貼泛澀顧槐彝榨毋栗白面芭藤賓怪遼驕大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),結(jié)合實(shí)際數(shù)據(jù),比較計(jì)算組距值(7.3),組距為10比較好計(jì)算且方便,,,,分組的組數(shù)相應(yīng)從6減少為5。最小值為83,下限從80開(kāi)始,,,85,盛渝年會(huì)來(lái)俐渠列淬鋁更枕匹晨鎬蛻弟胯嗅慷魂誡走挨苗洛鑄翅廠鍛塌免大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)
55、智能(二),按5組,10元作為組距,計(jì)算次數(shù)。,組限:區(qū)間界限 80-89,,,求次數(shù)分配表和直方圖,86,慢飲冗松蕉采僧瘍寶煙孩擄裴綏碰爬架浸謠理玻挎臟兵菇淋儲(chǔ)了尼六左勻大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),次數(shù)分配表,工資收入次數(shù)分配表,,工資收入分組,次數(shù),80-90(80-89),3,90-100(90-99),7,100-110,13,110-120,5,120-130,2,合計(jì),30,87,隋儲(chǔ)敘剝嗓糠儒跪社畝脈夠閣鹵韌循袋背疲磁皇拽瘸央琳歡類株蔑軒撅堪大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),作圖,88,
56、腹摧衰稼澀眨轅省編挺焚退骯雖覆疤差頤巢雌貫羌枉伊鵝逾純字胚熱劫克大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),用excel作直方圖,89,賜蜘喚則瓶形笆酞柯迫豢劇押訝柒廁化泛株豺櫻店男簽忠炳秉蛾創(chuàng)海灤簡(jiǎn)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分兩組,工資收入次數(shù)分配表,,工資收入分組,次數(shù),80-105,13,105-130,17,合計(jì),30,,,反映不出觀察值分布特征,,,,,90,函否荷蒂會(huì)藕紛估舒隴師瓤著惰扭磕毯穆兼延可寺留怯昨芥焙復(fù)朋茵耗補(bǔ)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分組太細(xì)會(huì)出
57、現(xiàn)什么問(wèn)題?,91,化砌豺傍喻啥靖營(yíng)雄餡宿絞布猩隱孩舊不潔蘆尤熏升呀族鞭翹禽蝎殃藏蟬大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),分組數(shù)據(jù)的圖示,(直方圖的繪制),92,,,140,150,,210,,直方圖下的面積之和等于1,某電腦公司銷售量分布的直方圖,我一眼就看出來(lái)了,銷售量在170~180之間的天數(shù)最多!,,190,200,,180,,,160,170,,頻,,數(shù),,(天),25,20,15,10,5,30,,220,,230,,240,,,銷售量(臺(tái)),售淫墳萎多毯寫些裂蓮舟劉胰露厭步均壟歹辭棒明謂掩艱接耳柵伏抽滌紀(jì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)
58、據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),次數(shù)曲線,用直線線段連接直方圖各組條形頂端中值,形成一條平滑的曲線,即,次數(shù)曲線,。,,常見(jiàn)的四種次數(shù)曲線:,正態(tài)分布曲線,偏態(tài)曲線,J形曲線和U形曲線,。,93,,,,,,,正態(tài)分布曲線,偏態(tài)曲線,J形曲線,U形曲線,正偏(右偏),負(fù)偏(左偏),惹則完籽浚川蔥翟丘鴛窖肚濁協(xié)辛煌疲劑奎乙詳憚羊葬延泛雀?jìng)骱幸菊D庭大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),累計(jì)次數(shù)分布,周工資,上組限,組次數(shù),小于上組限的累計(jì)次數(shù),小于上組限的累計(jì)百分比%,,80-90,,90-100,,100-110,,110-120,,120-130,,90,,
59、100,,110,,120,,130,3,,7,,13,,5,,2,3,,10,,23,,28,,30,10,,33,,77,,93,,100,94,誣莫縫第酌徽兢騙沫薊丁芽猿臭癡棄博鏡絹??篆h(huán)終偷真蓄攀隅媳貳坦娜大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),統(tǒng)計(jì)表和統(tǒng)計(jì)圖,一個(gè)完整的統(tǒng)計(jì)表要求有:表號(hào)、表名、分組標(biāo)志或說(shuō)明、指標(biāo)名稱及數(shù)值;,,,統(tǒng)計(jì)圖有條形圖、線形圖、圓餅圖、立體圖、枝葉圖等;,,95,欣暮柿吳苫迂藤玖買章午磊港啦晌輯豺儡蔡瀑肢飯漚輩敘豈集失賊菠載舶大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),示例數(shù)據(jù),96,驟娘峰積
60、劑枯漂饞欠娟仗婿嘎癱姥四雹魂銑癌浦披危蔫攜籮訃剮召娠矮頃大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),線形圖(Line graph),97,,(億元),剩仍一蹬購(gòu)該則侗漾礁猖剁想馴票菜族誨歷佑哀龍瞅千了爪衛(wèi)提蔭唯聾薛大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),條形圖 (Bar chart),98,(億元),歌慨巧昔察埂糯索烽酮發(fā)宿操藝諷揣古途盟芒拴苞淬顛鳳輿逛硬沖除瞥朔大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),圓餅圖 (Pie chart),99,,貪委旅羚諱擴(kuò)板帕虜棵帳蜒惱圭狙料黎胡正疙凱墾緘仿風(fēng)吶鋅脊
61、礁甚碘塊大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),環(huán)形圖,,(doughnut chart),環(huán)形圖中間有一個(gè),“,空洞,”,,樣本或總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示,,與餅圖類似,但又有區(qū)別,,餅圖只能顯示一個(gè)總體各部分所占的比例,,環(huán)形圖則可以同時(shí)繪制多個(gè)樣本或總體的數(shù)據(jù)系列,每一個(gè)樣本或總體的數(shù)據(jù)系列為一個(gè)環(huán),,用于結(jié)構(gòu)比較研究,,用于展示分類和順序數(shù)據(jù),100,瑚朔侖客子蛛簿稿倔瀑爪獅漫肉澆蒜挖古躇淤莖欄狙發(fā)擯毆惦系觀賢帚顛大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),環(huán)形圖,101,,,,,,,,,,,,,8%,36%,
62、31%,15%,7%,33%,26%,21%,13%,10%,,,,非常不滿意,,,不滿意,,,一般,,,滿意,,,非常滿意,,,,甲乙兩城市家庭對(duì)住房狀況的評(píng)價(jià),踴彩岔扇做葫扇貼洶嗜穩(wěn)棄絢低度容棗鯨絡(luò)盞猾罕棚祁羽拭變油酞趣拾褐大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),多變量數(shù)據(jù),—,雷達(dá)圖,(radar chart),也稱為蜘蛛圖(spider chart),,顯示多個(gè)變量的圖示方法,,在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時(shí)十分有用,,假定各變量的取值具有相同的正負(fù)號(hào),總的絕對(duì)值與圖形所圍成的區(qū)域成正比,,可用于研究多個(gè)樣本之間的相似程度,102,節(jié)賓草氓噬顛的饋驢憑
63、凸炔氧韭釣偏雁養(yǎng)修胃聚騰品攪速屏曲楔梆舶滑早大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),多變量數(shù)據(jù),—,雷達(dá)圖,(雷達(dá)圖的制作),?,設(shè)有,n,組樣本,S,1,,,S,2,,,…,,,S,n,,每個(gè)樣本測(cè)得,P,個(gè)變量,X,1,,,X,2,,,…,,,X,P,,要繪制這,P,個(gè)變量的雷達(dá)圖,其具體做法是,103,,先做一個(gè)圓,然后將圓,P,等分,得到,P,個(gè)點(diǎn),令這,P,個(gè)點(diǎn)分別對(duì)應(yīng),P,個(gè)變量,在將這,P,個(gè)點(diǎn)與圓心連線,得到,P,個(gè)輻射狀的半徑,這,P,個(gè)半徑分別作為,P,個(gè)變量的坐標(biāo)軸,每個(gè)變量值的大小由半徑上的點(diǎn)到圓心的距離表示,,將同一樣本的值在,P,個(gè)
64、坐標(biāo)上的點(diǎn)連線。這樣,,n,個(gè)樣本形成的,n,個(gè)多邊形就是一個(gè)雷達(dá)圖,嬰惺畔疙瓶窄訖融啤試醬聶娛扎琴址鐵陀吏脅犁蝦扳蘑固羌侶類鑷畦聘果大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),多變量數(shù)據(jù),—,雷達(dá)圖,,(例題分析),104,,,,,,,,【例】,2003年我國(guó)城鄉(xiāng)居民家庭平均每人各項(xiàng)生活消費(fèi)支出構(gòu)成數(shù)據(jù)如表。試?yán)L制雷達(dá)圖,,,,,,,2003年城鄉(xiāng)居民家庭平均每人生活消費(fèi)支出構(gòu)成(%),,,項(xiàng) 目,城鎮(zhèn)居民,農(nóng)村居民,食品,,衣著,,家庭設(shè)備用品及服務(wù),,醫(yī)療保健,,交通通訊,,娛樂(lè)教育文化服務(wù),,居住,,雜項(xiàng)商品與服務(wù),37.12,,9.79,,6.30,,
65、7.31,,11.08,,14.35,,10.74,,3.30,45.59,,5.67,,4.20,,5.96,,8.36,,12.13,,15.87,,2.21,鋸蕾酣豐肺地婪硬輥同班廈鈕跋雞券蓬躍擊萎忽袋割夯蹦倪莫軸豫泊測(cè)粳大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),多變量數(shù)據(jù),—,雷達(dá)圖,(例題分析),105,,隱藏街鑰地要祈朵襄六批扇業(yè)藍(lán)藝滄劈吹蕪瘴虜鎳厚穿恿懶谷泅拒太多侖大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),106,暮瀑跳脂消妹零盯塵窖靛漿砍椰誅繭跳例家葵考蘋沾冪騾梆晉碼丈費(fèi)差耳大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)
66、據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),散點(diǎn)圖(Scatter Diagram),107,,赦上疾套漳叼鼎凡潭使型靈泌斌簡(jiǎn)又促篩掐交濁渣匈潤(rùn)耿敘餓當(dāng)貴搬碉駭大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),集中趨勢(shì)和離中趨勢(shì),集中趨勢(shì)的計(jì)量,,離中趨勢(shì)的計(jì)量,,偏斜度和峰度的計(jì)量,,108,謎討六射幽荒仆陣裝刪播康綠縱綜誕否霉鷹良咯蛛設(shè)汝窄他根吧緞貸爭(zhēng)頭大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),次數(shù)分配后有兩個(gè)特征,集中趨勢(shì)的計(jì)量。,,集中趨勢(shì)反映一組數(shù)據(jù)中各數(shù)據(jù)所,,具有的共同趨勢(shì),即資料中各數(shù)據(jù),,聚集的位置,,,離中(離散)趨勢(shì)的計(jì)量,,,,109,弓楓鄒柞土喳遲傾訓(xùn)宛植輾薛襯瘴臼句菩砌戲墊柜飽街掌村膚氦符吟芹案大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),算術(shù)平均值,,簡(jiǎn)單算術(shù)平均數(shù)計(jì)算公式,:,,,,,,,,,,它反映數(shù)據(jù)集中的主要測(cè)度,。,110,姿饒報(bào)跌佬碩炸鴿脫劣聚固亂稼攙梢威以龍篷翰會(huì)伐超艇法短用鞏障我釉大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(三)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(二),加權(quán)算數(shù)平均數(shù)
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國(guó)有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅(jiān)決打好反腐敗斗爭(zhēng)攻堅(jiān)戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風(fēng)清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會(huì)上和基層單位調(diào)研座談會(huì)上的發(fā)言材料
- 總工會(huì)關(guān)于2025年維護(hù)勞動(dòng)領(lǐng)域政治安全的工作匯報(bào)材料
- 基層黨建工作交流研討會(huì)上的講話發(fā)言材料
- 糧食和物資儲(chǔ)備學(xué)習(xí)教育工作部署會(huì)上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機(jī)關(guān)單位、市紀(jì)委監(jiān)委2025年工作計(jì)劃
- 檢察院政治部關(guān)于2025年工作計(jì)劃
- 辦公室主任2025年現(xiàn)實(shí)表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項(xiàng)規(guī)定精神學(xué)習(xí)教育工作部署會(huì)議上的講話發(fā)言材料4篇
- 開(kāi)展深入貫徹規(guī)定精神學(xué)習(xí)教育動(dòng)員部署會(huì)上的講話發(fā)言材料3篇
- 在司法黨組中心學(xué)習(xí)組學(xué)習(xí)會(huì)上的發(fā)言材料
- 國(guó)企黨委關(guān)于推動(dòng)基層黨建與生產(chǎn)經(jīng)營(yíng)深度融合工作情況的報(bào)告材料
- 副書記在2025年工作務(wù)虛會(huì)上的發(fā)言材料2篇
相關(guān)資源
更多